多特征融合的油气勘探领域命名实体识别与应用摘要
针对现有命名实体识别方法在识别油气勘探文本中涉及多元素组合的实体以及嵌套实体时存在一定局限性的问题,提出了一种多特征融合的BERT-CNN-BiGRU-Attention-CRF(Bidirectional Encoder Representations from Transformers-Convolutional Neural Network-Bidirectional Gated Recurrent Unit-Attention-Conditional Random Field)命名实体识别方法。模型利用BERT的语义提取能力获取句子具有全局特征的字向量;并利用CNN局部特征捕获能力消除了BERT字向量的局限性得到词语字符级向量;通过自建油气勘探领域词典,使用双向最大长度匹配方法获取了词典特征向量。将这3种向量拼接作为BiGRU-Attention-CRF模型的输入。实验结果表明,在自主构建的小规模油气勘探领域数据集上,模型的F1值为91.10%,相较于其他主流的命名实体识别方法,该模型具有更好的识别性能,并为油气勘探领域知识图谱构建提供了有利帮助。
|
@ 2023 版权所有 中国地质图书馆 (中国地质调查局地学文献中心)
京ICP备 05064591号 京公网安备11010802017129号
建议浏览器: 火狐、谷歌、微软 Edge、不支持 IE