团队近期成果--整合材料科学出版物文本和表格提取的文献挖掘方法
我们团队在国际期刊《Computational Materials Science》(IF:3.3000)上在线发表论文”A literature-mining method of integrating text and table extraction for materials science publications”。该论文上海大学计算机工程与科学学院为第一单位,张瑞副教授为第一作者,张家旺为第二作者,韩越兴副教授为通讯作者。
科学文献作为展示研究成果的重要方式,本研究提出一种大规模材料科学文献信息处理方法,分别提取科学文献中文本和表格信息并分析。首先,提出通用性动态词向量与领域性静态词向量融合的材料文本命名实体识别模型;其次,提出一种高效准确的图像型表格识别和成分提取方法,从成分表格中提取材料名称、单位和成分;最后,利用从文本和表格中提取的成分、工艺、性能和性能变化,使用机器学习对抗腐蚀性、延展性、强度和硬度进行性能预测。本文以不锈钢为示范材料,从11058篇不锈钢材料文献中,挖掘得到236万个实体和7970组成分,并对四种性能变化进行预测。本文提出的方法能够实现大规模从材料科学文献中提取知识,提取结果可供相关研究人员使用,促进材料性能改善工作。