おめでとうございます、張家旺さんが無事に卒業されたことを祝福します!

張家旺さんは南京情報工程大学で学士号を取得し、2020年に上海大学のコンピュータ工学と科学学院で専門職の修士課程に入学しました。課題グループに参加後、指導教員である張瑞先生、韓越兴先生、陳侨川先生に師事し、材料文献情報の探索方法に関する研究を行いました。先生方のご指導のもと、以下の研究を完了しました:

  1. 材料文献のテキスト表現特性および成分表の構造特徴に対し、文脈を考慮した文献情報抽出手法を提案しました。テキスト情報と表情報をそれぞれ探索するための手法です。材料テキストの抽出には固有表現認識技術を使用し、動的な単語ベクトルと材料領域の静的な単語ベクトルを統合することで、各単語ベクトルにコンテキスト情報と材料領域の知識を含めることができました。これにより、材料テキストの固有表現認識の効果が著しく向上し、ステンレス鋼材料や無機材料の固有表現認識データセットで実験を行いました。材料文献中の成分表の構造特徴に着目し、形態学、目標輪郭検出、テキストの類似度などの手法を組み合わせ、従来の画像処理技術に基づく表の認識手法を提案しました。成分表の構造を見出し、ヘッダー、およびボディに分解し、異なる領域から材料名、元素、元素含有量、および単位情報を抽出することができます。実験により、成分表の認識手法は良好な結果を達成することが確認されました。

  2. 材料文献から抽出した引張強度と材料成分データに基づいて、材料の性能予測方法を提案しました。この方法では、XenonPy材料情報学ライブラリを使用して成分データを特徴的に拡張し、拡張された計算原理に基づいて、クロス特徴圧縮と特徴選択の手法を設計しました。これにより、元素レベルの統計的特徴と引張強度データを選択し、これらのデータを使用して機械学習モデルをトレーニングしました。実験には、日本の国立材料科学研究所が公開したデータが使用され、結果は提案された成分特徴処理方法がモデルの予測性能を大幅に向上させることを示しています。

  3. ステンレス鋼をサンプル材料として、提案された文献探索および性能予測手法を11,058件のステンレス鋼の科学文献に適用しました。文献テキストからは2,360,000個の材料エンティティを抽出し、文献の表からは7,970組の材料成分情報を抽出しました。これらから関連するデータを選択し、引張強度の数値予測、腐食性、延性、強度、硬度の変化傾向の予測を行いました。

張家旺さんは卒業後、ソフトウェア開発に関連する仕事で華為上海研究所に入社しました。上海大学での3年間の大学院生活で、彼は一生懸命勉強し、専門知識と研究能力を向上させました。また、多くの優れた指導教員や友人と出会うことができました。将来の道において、張家旺さんが初心を忘れず、使命を念頭に置き、困難に立ち向かい、前進することを願っています。

論文へのリンク:Research on Context-aware Material Literature Text and Table Information Mining and Application Methodology

张家旺照片