2025.01
|
チームの最近の成果: ディープラーニングを用いた文献からのグラフ情報抽出手法
|
国際学術誌「Journal of the European Ceramic Society」(IF : 3.1, CAS Zone 3)に「論文中の曲線グラフ情報の自動パイプライン」という論文を発表しました。ディープラーニングに基づく 筆頭著者は上海大学計算機工程科学学院、筆頭著者は韓悦星、第二著者は夏金華、対応著者は陳喬川である。
|
材料科学や生物医学の分野である。 現在の学術データベースツールは、主にテキスト情報のマイニングに重点を置いており、グラフやチャートに示された貴重な情報は無視されている。 大量の文献から情報を抽出することで、研究者は開発の現状を迅速に把握することができる。 文献は様々な形式のデータの担い手であり、ほとんどの研究者はテキストコンテンツにのみ注目している。 特にグラフのように、他のデータでは表現されない重要な数値情報が多く含まれている。 本稿では、文献中のグラフから情報を抽出する手法を提案する。 この手法では、グラフとテキストの両方から、曲線グラフの数値と軸実体を抽出することができる。 まず、Yolov5sを用いて文献から曲線グラフを切り出す。 次に、Sentence-Bertを操作して、各曲線グラフに対応する正確なタイトルテキストを照合する。 タイトルテキストを得た後、SCI-Bertを用いて曲線グラフのX軸とY軸の名前を抽出した。 同時に、光学式文字認識(OCR)などの技術を使用して、グラフに反映された数値データを自動的に解析した。 さらに、パフォーマンスを向上させるために多くの原則が用いられている。 Elsevierの6042の論文からなるデータセットを用いて、各ステップを検証した。 本手法を用いた場合、グラフ検出の精度は96.4%、タイトルマッチングの精度は95.8%であり、いずれも初期モデルを上回り、本手法の有効性が証明された。 エンティティの抽出精度は76.3%、数値データの抽出精度は28.2%であった。 実験結果から、本手法が文献から曲線図の大規模な知識抽出を実現できることが示された。
DeepL.com(無料版)で翻訳しました。
|
|