恭喜王慧顺利毕业!

王慧,本科毕业于延边大学,于2022年9月开始在上海大学计算机工程与科学学院攻读硕士研究生,加入课题组后,跟随韩越兴老师学习自然语言处理等相关技术与应用并完成了以下研究:

  1. 为了发挥大语言模型在科学文献场景下进行实体提取的潜力,提出了一种上下文一致的实体显式标注方法与双阶段训练方法,来解决大语言模型在生成式输出与命名实体识别任务序列标注特性之间的差异。然后,在训练阶段分为监督微调和直接偏好优化两个阶段,监督微调阶段先在已有标注数据上学习基本的实体识别能力;直接偏好优化阶段为了更有效地引导模型纠正错误,在负样本构造时尝试扩张、收缩实体边界,并对监督微调后的推理结果筛选制造类别混淆样本,通过利用正负样本对的偏好差进行约束,增强模型对错误判定的修正能力。

  2. 为解决通用模型在处理材料科学、生物医学等高度专业化领域时,因大量低频专业术语导致命名实体识别精度不足的问题,本文提出了一种基于领域语言模型的语义融合方法,通过将不同领域语言模型和领域词级向量进行语义融合,来增强对科学文献的深层语义理解,通过实验验证了方法对材料科学和生物医学领域中复杂专业文本的有效性。最后将方法应用在具体领域,设计出了三种高硬度合金,展现其在科研文本挖掘及辅助研发决策方面的实用价值。

毕业后王慧同学进入维沃移动通信公司。王慧同学在上海大学三年的研究生生涯中努力学习,参与科研项目。对于复杂的问题,能够快速分析并提出有效的解决方案,展现了较强的独立研究能力和创新意识。希望王慧同学在未来的道路上不忘初心,披荆斩棘,砥砺前行。

论文链接:面向科学文献的命名实体识别研究与应用

代码链接:https://github.com/han-yuexing/2025-thesis-wh-code