109 / 2024-07-09 18:00:38
预训练语言模型在电子信息制造企业实体消歧中的应用
实体消歧,BGE,LightGBM,中文短文本,预训练模型,电子信息
终稿
梁勇奇 / 军事科学院国防科技创新研究院
侯振伟 / 军事科学院国防科技创新研究院
按企业名称确定唯一现实对象是构建行业数据集的关键。针对企业名称短,语义特征少,简写和错写形式多样的情况,借助智源 BGE(BAAI General Embeddings)预训练语言模型的向量化能力,提出基于 BGE 的相似度计算、基于 BGE 的轻量梯度提升机LightGBM(Light Gradient Boosting Machine)和门控循环单元 GRU 企业实体消歧方法。在构建的约 6000 条电子信息制造企业语料集上,对比分析现有方法,新提出 BGE+LightGBM的方法明显优于基于增强优化预训练模型 RoBERTa 的深度学习分类方法。训练过程简单、效果稳定,在准确率、召回率、F1,分别高出 3.27%、7.9%、9.93%,能更精准地确定唯一的电子信息企业实体对象。
重要日期
  • 会议日期

    08月02日

    2024

    08月04日

    2024

  • 08月04日 2024

    注册截止日期

主办单位
国防科技大学系统工程学院
联系方式
历届会议
移动端
在手机上打开
小程序
打开微信小程序
客服
扫码或点此咨询