斑岩铜矿知识图谱与信息抽取系统构建

查看详情 浏览次数:1
单位1中国地质大学(北京)信息与工程学院;2中国地质大学(北京)地球科学与资源学院;3软件学院/吉林大学;4计算机科学与技术学院/吉林大学;5符号计算与知识工程教育部重点实验室/吉林大学
来源首届全国矿产勘查大会
出版年2021
摘要
矿产资源是自然资源的重要组成部分,是推动人类社会发展的重要基础。已有的矿产资源预测研究更关注控矿要素和成矿标志,而缺少对成矿物质的演化、循环等相关因素之间的关联和制约关系的关注。近年来地学大数据的大幅增长和数据科学的迅速发展为地球科学带来的了新的机遇,为矿产预测带来了新的思想与方法。尤其是神经网络、知识图谱等人工智能技术。知识图谱是人工智能研究的重要方向之一。通过构建知识图谱,可以形成一个具有普适性的专家知识库,自动挖掘出成矿物质相关因素之间的内在联系,发现一些传统方法难以发掘的深层次信息,从而指引矿产预测工作的方向。知识图谱的构建主要包括三个主要步骤:信息抽取、知识融合、知识加工。本文利用人工标注的斑岩铜矿领域数据训练深度学习模型,构建了一个能自动化从文献中提取斑岩铜矿相关实体与关系的信息抽取系统。本文通过爬虫技术,收集斑岩铜矿相关的文献,对文献中的文本内容进行提取并基于斑岩铜矿相关知识和IOBES标注体系进行实体与关系标注,构建了原始数据集。通过Bert词嵌入模型和双向长短期记忆神经网络Bi-LSTM以及条件随机场CRF技术构建斑岩铜矿命名实体抽取模型。该模型能对输入的实体单词或词组预测其实体类型,并且可以良好的捕捉句子中的上下文信息,提高实体类型预测的准确率。通过Word2Vec词嵌入模型和分段卷积神经网络PCNN以及注意力机制Attention技术构建实体间的关系抽取模型。该模型使用神经网络来提取局部特征,并使用注意力机制过滤标注时产生的噪声,从而实现更好的识别效果。本文使用标注数据集对模型进行训练,命名实体识别模型与关系抽取模型在测试集上均取得了良好的效果,为后续构建知识图谱本体层奠定了基础。

@ 2023 版权所有 中国地质图书馆 (中国地质调查局地学文献中心)

京ICP备 05064591号 京公网安备11010802017129号

建议浏览器: 火狐、谷歌、微软 Edge、不支持 IE