恭喜夏锦桦顺利毕业!

夏锦桦,本科毕业于江苏科技大学,于2020年开始在上海大学计算机工程与科学学院攻读专业型硕士研究生。夏锦桦跟随韩越兴老师研究材料文献信息挖掘方法,在韩老师的悉心指导下,完成了以下研究:

  1. 数值图信息的提取。结合数值图及其对应的标题,提出了一种图片和文本相结合的文献挖掘方法。该方法首先使用 Yolov5s 截取科学文献中的单一数值图图片,并应用改进的科学文献图片检测方法来提升准确性。接着利用PDFminer 工具解析科学文献中的文本内容。然后计算语句间的余弦相似度和Jaccard相似度匹配数值图对应的标题文本。其次采用Sci-Bert模型与CRF算法在标题中识别坐标轴名称。另外应用形态学操作和字符识别等技术从数值图图上提取具体的数据信息。最后将挖掘出的坐标轴名称和数据整合以获得完整的数值图信息。

  2. 针对上述识别数值图坐标轴名称任务中模型识别精度低的问题,本文抓住科学文献中数值图图片和文本之间的关系,提出了一种提升识别效果的方法。该方法首先识别数值图图上的标签文本,并将其填入样本模板以生成无需标注的文本数据,达到数据增强的效果。同时,利用文本相似度匹配技术在科学文献的正文部分寻找对应的数值图描述语句,将其以扩充文本的形式与标题文本拼接,依靠上下文关联改善输入语句生成的向量表征,从而优化模型的预测性能。

毕业后夏锦桦同学进入杭州广立微电子公司从事软件开发相关工作。夏锦桦同学在上海大学三年的研究生生涯中努力学习,不断增强自己的专业知识和研究汇报能力,有幸结识了许多良师益友。希望夏锦桦同学在未来的道路上不忘初心,牢记使命,披荆斩棘,砥砺前行。

论文链接:基于上下文感知的材料科学文献中图文信息挖掘方法研究

夏锦桦照片