基于BERT+BiLSTM+CRF深度学习模型和多元组合数据增广的渔业标准命名实体识别.docx
《基于BERT+BiLSTM+CRF深度学习模型和多元组合数据增广的渔业标准命名实体识别.docx》由会员分享,可在线阅读,更多相关《基于BERT+BiLSTM+CRF深度学习模型和多元组合数据增广的渔业标准命名实体识别.docx(20页珍藏版)》请在第一文库网上搜索。
1、摘要:为解决渔业标准命名实体识别任务中部分实体语料分布稀疏导致的效果不佳问题,提出了基于多元组合数据增广(dataaugmentationmethodbasedonmu1tip1eCombinatiOn,MCA)的渔业标准命名实体识别方法,该方法融合了基于领域词典的联合替换算法(jointrep1acementa1gorithmbasedondomaindictionary,DDR)基于槽点保护的随机删除算法(randomde1etiona1gorithmbasedons1otprotection,SPD)和基于槽点保护的随机插入算法(randominsertiona1gorithmbased
2、ons1otProteCtiOn,SPI)进行语料库的数据增广,首先构建“水产品名称”同类词词典和领域同义词词典,通过两个词典分别对“水产品名称”类实体和随机词进行同类词替换和同义词替换,生成新的句子,以增加目标实体数量和句子的多样性,然后在基于槽点保护的情况下对原句子分别进行随机删除和随机插入操作,在保留实体及上下文特征的情况下进一步丰富语料的多样性,提高模型的泛化能力。结果表明,采用基于融合注意力机制的BERT+Bi1STM+CRF网络模型和多元组合数据增广方法进行渔业标准命名实体识别,准确率、召回率、F1值分别达到了91.73%、88.64%、90.16%,具有较好的效果。研究表明,基于
3、多元组合数据增广的渔业标准命名实体识别方法有效解决了部分实体样本稀疏问题,提升了渔业标准命名实体识别的整体效果。关键词:深度学习;实体识别;数据增广;BERT;双向长短时记忆网络;渔业标准渔业标准化是提高渔业生产效益、提升水产品质量和保障渔业生产安全的重要手段之一,渔业标准文本是渔业标准化的载体,也是渔业生产人员获取渔业标准知识的主要途径。为高效地获取渔业标准知识,需对渔业标准文本中命名实体进行识别。渔业标准命名实体识别是从渔业标准文本中识别“渔业标准号”、“渔业标准指标”及“水产品名称”等命名实体。早期的命名实体识别任务主要采用基于规则和词典的方法,这类方法需要由有经验的专家总结规则,识别效
4、果依赖于专家的经验,在数据量较少且不同专家总结的规则一致性较高的情况下效果较好。随着数据量的不断增加,规则提取工作量增大,保持规则一致性难度加大,基于规则和词典方法的识别效果无法满足人们的进一步需求,学者们提出了基于词典与条件随机场的命名实体识别方法,该类方法采用统计学习的方法统计语料库中文本信息的分布情况并进行命名实体识别。与基于规则方法相比,统计学习方法的性能取得了较大提升,但是由于此类方法需要手工选择特征,算法性能依赖于特征模板的结构,缺乏泛化能力。随着深度学习的发展,深度学习被应用于命名实体识别领域。孙娟娟等提出了基于深度学习的渔业领域命名实体识别,取得了较好的效果,但由于对渔业领域命
5、名实体对象类别定义较为宽泛,识别的实体类别较少,该算法不适用于具有较多类别、实体结构较为复杂的渔业标准命名实体识别。为解决上述问题,程名等在分析渔业标准文本特点的基础上,提出了融合注意力机制的Bi1STM+CRF(Bi1STM+Attention+CRF)渔业标准命名实体识别方法,在渔业标准命名实体识别任务中取得了较好效果。然而,由于渔业标准文本中“水产品名称”等类别实体数量少、样本分布不均匀,导致识别效果不够好,人工扩充语料库存在效率低、成本高,以及易造成错误传播等问题,因此,需要研究语料库自动扩充方法。目前,少样本命名实体识别主要包括数据增广、模型迁移、特征变换和知识链接等方法,分别从准确
6、性、易用性和优缺点等方面对这些方法进行比较,4种方法各有优劣,其中,数据增广方法是最有效的小样本数据扩充方法,该方法通过优先挑选高质量样本参与训练,达到扩充语料库的目的,此方法在特定领域命名实体识别任务中能获得较高的准确率。程名提出了基于改进EDA(easydataaugmentation)的数据增广方法用于解决样本数量较少等问题,取得了较好的效果,但进行数据增广后实体上下文特征并未得到保护,造成实体特征缺失,影响了命名实体识别任务的识别效果。为了解决上述问题,需要研究有效的数据增广方法,确保在不丢失语义信息的基础上,进一步扩充语料数量,提升语料质量,增加样本多样性,提高命名实体识别的准确性和
7、鲁棒性。为此,本研究中针对渔业标准命名实体识别任务的特点,以及部分目标实体样本数量较少、效果不好等问题,提出了多元组合数据增广的渔业标准命名实体识别方法,即在传统的同义词替换算法(SynOnymsubstitution)随机删除算法(random1yde1ete)和随机插入算法(random1yinsert)基础上进行改进,提出了基于领域词典的联合替换算法(jointrep1acementa1gorithmbasedondomaindictionary,DDR)基于槽点保护的随机删除算法(randomde1etiona1gorithmbasedons1otPrOteCtiOn,SPD)和基于槽
8、点保护的随机插入算法(randominsertiona1gorithmbasedons1otprotection,SPI),将这3种算法进行多元组合,并使用基于融合注意力机制的BERT-Bi1STM-CRF网络模型对渔业标准文本进行命名实体识别,以提高识别的准确率。1基于多元组合数据的增广算法在对渔业标准文本处理过程中,通过采样统计了渔业标准文本中各类实体的数量分布(表1),结果表明,“水产品名称”样本较少且特征不明显,模型无法学习较多特征,识别效果较差,仅有71%。表1实体数量情况Tab.1Entitydistribution实体类型数量准确率/%entitytypequantityPreC
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 BERT BiLSTM CRF 深度 学习 模型 多元 组合 数据 增广 渔业 标准 命名 实体 识别