2025.01
|
团队近期成果--利用深度学习从文献中提取曲线图信息的方法
|
我们团队在国际期刊《Journal of the European Ceramic Society》(IF : 3.1,中科院三区)上发表论文“Automatic pipeline for information of curve graphs in papers based on deep learning”。该论文上海大学计算机工程与科学学院为第一单位,韩越兴为第一作者,夏锦桦为第二作者,陈侨川为通讯作者。
|
在材料科学和生物医学领域。当前学术数据库工具主要集中在挖掘文本信息,而忽略了图表中所呈现的有价值的信息。从大量文献中提取信息可以帮助研究人员快速掌握当前的发展状态。文献是多种形式数据的载体,而大多数研究人员仅关注文本内容。尤其是像曲线图,包含了大量在其他数据中未表达的关键数值信息。本文提出了一种从文献中的曲线图提取信息的方法。通过该方法,可以从图形和文本中提取曲线图的数值和坐标轴实体。首先,使用Yolov5s从文献中剪切出曲线图。然后,通过操作Sentence-Bert来匹配与每个曲线图对应的准确标题文本。在获得标题文本后,使用SCI-Bert提取曲线图中的X轴和Y轴名称。同时,采用光学字符识别(OCR)等技术,自动解析图表上反映的数值数据。此外,还采用了一些原则来提高性能。我们使用来自Elsevier的6042篇文章的数据集验证了每个步骤。通过我们的方法,曲线图检测和标题匹配的准确率分别为96.4%和95.8%,均优于初始模型,证明了我们方法的有效性。实体和数值数据提取的准确率分别为76.3%和28.2%。实验结果表明,我们的方法能够实现从文献中大规模提取曲线图的知识。
|
|