おめでとうございます。夏錦桦さんの卒業が無事に終了しました!
夏錦桦さんは、江蘇科技大学で学士課程を修了し、2020年に上海大学のコンピュータ工学科学学院で専門の修士研究生コースに進学しました。夏錦桦さんは韓越興先生に師事し、材料文献情報のマイニング方法について研究しました。韓先生の熱心な指導のもと、以下の研究を遂行しました:
-
数値グラフ情報の抽出。数値グラフと対応するキャプションを組み合わせて、文献マイニングのための画像とテキストの統合手法を提案しました。この手法ではまず、Yolov5sを使用して科学文献から単一の数値グラフ画像を切り出し、改良された科学文献画像検出手法を適用して精度を向上させます。次に、PDFminerツールを使用して科学文献のテキストコンテンツを解析します。そして、文の間のコサイン類似度とJaccard類似度を計算し、数値グラフに対応するキャプションテキストをマッチングします。さらに、Sci-BertモデルとCRFアルゴリズムを使用して、タイトルから軸の名前を識別します。さらに、形態学的操作や文字認識などの技術を使用して、数値グラフから具体的なデータ情報を抽出します。最後に、抽出された軸の名前とデータを統合して完全な数値グラフ情報を取得します。
-
上記の数値グラフの軸名識別タスクにおけるモデルの認識精度の低さに対処するため、本論文では科学文献の数値グラフ画像とテキストの関係に着目し、識別効果を向上させる手法を提案しました。この手法では、まず数値グラフ上のラベルテキストを識別し、サンプルテンプレートに埋め込んでアノテーション不要のテキストデータを生成し、データ拡張の効果を得ます。同時に、テキストの類似度マッチング技術を使用して科学文献の本文部分から数値グラフの説明文を探し、それをタイトルテキストと結合してテキストの拡張を行います。これにより、文脈の関連性に基づいて入力文のベクトル表現を改善し、モデルの予測性能を最適化します。
夏錦桦さんは卒業後、杭州広立マイクロエレクトロニクス社でソフトウェア開発関連の仕事に携わります。夏錦桦さんは上海大学での3年間の修士課程で努力し、専門知識と研究発表能力を向上させるために努めました。多くの優れた教師や友人に出会うことができました。夏錦桦さんには、将来の道のりで初心を忘れず、使命を心に刻み、困難を乗り越えて前進することを願っています。
論文へのリンク:Research on Context-Aware Information Mining of Image and Text in Material Science Literature