最近のチームの成果:材料科学の出版物のテキストと表データの統合に基づく文献マイニング手法の開発
私たちのチームは、国際ジャーナル『Computational Materials Science』(IF: 3.3000)にて「材料科学の出版物におけるテキストと表データの統合に基づく文献マイニング手法」と題する論文をオンラインで発表しました。この論文では、上海大学コンピュータ工学と科学学院が第一機関となり、第一著者は張瑞副教授、第二著者は張家旺氏であり、通信著者は韓越兴副教授です。
科学文献は研究成果を示す重要な手段であり、本研究では大規模な材料科学文献情報処理手法を提案し、文献からテキストと表データをそれぞれ抽出し分析しました。まず、汎用的な動的ワードベクトルとドメイン固有の静的ワードベクトルを組み合わせた材料テキストの固有表現認識モデルを提案しました。次に、効率的かつ正確な画像型表データの認識と成分抽出手法を提案し、成分表から材料名、単位、および成分を抽出しました。最後に、テキストと表データから抽出した成分、プロセス、性能、および性能変化を使用して、機械学習を用いて耐食性、延性、強度、および硬度を予測しました。本研究ではステンレス鋼をデモ素材とし、11058件のステンレス鋼材料文献から236万のエンティティと7970の成分を抽出し、4つの性能変化を予測しました。提案された手法は、材料科学文献からの知識の大規模な抽出を実現し、関連する研究者に利用可能な抽出結果を提供し、材料性能改善の促進に役立ちます。