恭喜张家旺顺利毕业!
张家旺,本科毕业于南京信息工程大学,于2020年开始在上海大学计算机工程与科学学院攻读专业型硕士研究生,加入课题组后,跟随张瑞、韩越兴和陈侨川老师研究材料文献信息挖掘方法,在老师们的悉心指导下,完成了以下研究:
-
针对材料文献文本的表述特点和成分表格的结构特征,提出一种基于上下文感知的文献信息提取方法,分别对文本和表格信息进行挖掘。使用命名实体识别技术对材料文本进行挖掘,将动态词向量与材料领域静态词向量相融合,使得每个词向量中都包含上下文语境信息和材料领域知识,显著提高材料文本的命名实体识别效果,并在不锈钢材料和无机材料的命名实体识别数据集上实验。 针对材料文献中成分表格的结构特点,结合形态学、目标轮廓检测、文本相似度等方法,提出基于传统图像技术的表格识别方法,将成分表格的结构拆解为标题、表头和表体,分别从不同区域中提取出材料名称、元素、元素含量和单位信息。经过实验验证,成分表格识别方法能够达到较好的效果。
-
针对从材料文献上下文中挖掘得到的抗拉强度和材料成分数据,提出一种基于文献信息提取的材料性能预测方法。该方法利用XenonPy材料信息学库对成分数据进行特征扩充,根据扩充的计算原理,设计一种十字交叉特征压缩及特征选择方法,筛选得到元素级统计特征和抗拉强度数据,并使用机器学习在这些数据上训练预测模型。实验采用日本国立材料科学研究所公布的数据,结果证明所提出的成分特征处理方法能够显著提升模型的预测性能。
-
以不锈钢为示范材料,将提出的文献挖掘和性能预测方法应用在11058篇不锈钢科学文献上。从文献文本中挖掘得到236万个材料实体,从文献表格中提取得到7970组材料成分信息,从中筛选出相关数据,对抗拉强度进行数值预测,对抗腐蚀性、延展性、强度和硬度进行变化趋势预测。
张家旺学长以优秀毕业生的身份毕业,毕业后张家旺同学进入华为上海研究所从事软件开发相关工作。张家旺同学在上海大学三年的研究生生涯中努力学习,不断增强自己的专业知识和研究能力,有幸结识了许多良师益友。希望张家旺同学在未来的道路上不忘初心,牢记使命,披荆斩棘,砥砺前行。
论文链接:基于上下文感知的材料文献文本与表格信息挖掘及应用方法研究