基于循环神经网络的勘探开发文档自动文摘方法研究

查看详情 浏览次数:1
作者肖常琦
单位东北石油大学
来源东北石油大学
出版年2025
摘要
近年来随着我国在地质勘探开发领域的快速发展,勘探开发方面专业文献呈井喷式增长,这些文档具有专业性高、知识密度大的特点,为研究人员快速寻找合适的勘探开发参考文档带来了困难。然而人工标注摘要需要耗费巨大资源,因此自然语言处理领域的自动文摘技术成为解决上述问题的关键。 传统自动文摘方法大都基于原文本内容进行统计学分析进行提取和有限性生成,这些方法大都效率低且准确度不高,容易缺失关键信息。为解决这些问题,本文将深度学习的方法引入至自动文摘方法中,本文提出一种基于循环神经网络RNN结合注意力机制的勘探开发文档自动文摘方法来高效提取文档关键信息,提升信息处理效率。为此本文主要做了以下工作: 首先,本文采用循环神经网络的变体长短期记忆神经网络LSTM和门控循环单元GRU搭建编码器-解码器架构,利用其强大的序列建模能力捕捉文档中的语义信息和上下文依赖关系。在此基础上为其引入注意力机制构建出自动文摘模型,使其能够动态关注文档中的关键信息,从而有效解决传统文摘方法中存在的信息丢失和重复问题。随后本文在上述工作基础上使用勘探开发文档数据集对BERT预训练模型进行微调用以输出句子特征,并以LSTM和GRU构建的编码器-解码器架构为基础,结合层次化注意力机制搭建出新的自动文摘模型,该模型在保留对非结构化文档的文摘生成能力的基础上,进一步增强针对高度结构化文档的摘要生成能力。最后在集成系统上搭建文摘功能界面,将自动文摘模型集成到相关的勘探开发文档知识管理系统当中,使模型发挥实际应用价值。 本文在实验中主要采用ROUGE和BLEU工具对模型性能进行评估。最终结果表明,本文所构建的模型在两种评估工具上的指标均优于传统方法和大部分基于深度学习的模型,能够有效提取文档的核心内容。 实验结果表明本文提出的基于循环神经网络结合注意力机制的自动文摘方法为勘探开发领域的信息处理提供了一种高效准确的技术手段,具有重要的理论和实际应用价值。

@ 2023 版权所有 中国地质图书馆 (中国地质调查局地学文献中心)

京ICP备 05064591号 京公网安备11010802017129号

建议浏览器: 火狐、谷歌、微软 Edge、不支持 IE