基于近红外光谱的油页岩含油特性检测方法研究摘要
总有机碳(Total Organic Carbon,TOC)含量和含油率是评价油页岩质量的重要指标,基于物理化学实验的油页岩检测过程复杂繁琐,技术要求高,无法满足生产过程快速检测的要求。近红外光谱技术具有检测速度快、无需破坏样品、不需要化学试剂、操作简便等优点。本文以松辽盆地某区块所采集的230个岩芯样本为研究对象,使用近红外光谱分析技术对油页岩总有机碳含量和含油率进行检测,探讨单一模型和集成学习模型对油页岩含量预测精度的影响,分别建立了油页岩总有机碳和含油率近红外光谱检测模型。具体研究工作如下。(1)建立油页岩总有机碳含量检测模型。利用蒙特卡洛法剔除异常样本,使用去趋势结合基线校正方法进行预处理。分别采用连续投影算法(Successive Projections Algorithm,SPA)、无信息变量消除(Uninformative Variable Elimination,UVE)算法以及竞争性自适应重加权(Competitive Adaptive Reweighted Sampling,CARS)算法选取特征波长。建立偏最小二乘(Partial Least Squares,PLS)模型、支持向量机(Support Vector Machine,SVM)模型和随机森林(Random Forest,RF)模型对油页岩总有机碳含量进行预测。研究结果表明,非线性的RF和SVM模型效果要优于线性模型PLS,这是因为油页岩样本中的碳存在于各类烃中,而不同类别含烃基团的吸收峰之间相互影响,使得油页岩总有机碳含量和近红外光谱数据之间存在着复杂的非线性关系。相比于其他模型,CARS-SVM模型测试集的Rp~2和RMSEP表现出的结果较好,分别为0.9066和0.2220。由此可见,近红外光谱分析技术应用于油页岩TOC含量快速检测是可行的,建立的CARS-SVM模型能够表现出较好的检测效果。(2)建立油页岩含油率检测模型。为了克服单一模型预测精度很难进一步提高的不足,利用近红外光谱分析技术结合基于Stacking框架的异构集成学习模型来实现对油页岩含油率快速检测。对剔除异常样本的数据集,为了消除光谱数据中噪声和基线漂移的影响,采用去趋势与基线校正相结合的方法进行预处理,并按照3:1的比例将样本随机划分为训练集和预测集。使用随机森林算法进行波长重要性排序并保留重要波长,在此基础上采用CARS算法对重要波长点进行特征波长提取,降低数据维度。构建以PLS、SVM、RF、梯度提升树(Gradient Boosting Decison Tree,GBDT)为初级学习器,PLS回归模型为次级学习器的Stacking集成学习模型。研究结果表明,RF-CARS方法能够有效筛选重要波长;与单一模型(SVM、PLS)和同构集成学习模型(RF、GBDT)相比,基于Stacking的异构集成学习模型有更好的预测效果,模型预测集的决定系数R~2为0.9174,RMSEP为0.6601。基于Stacking的异构集成学习模型能够结合多个初级学习器的优势,从而提高含油率检测模型的性能。
|
@ 2023 版权所有 中国地质图书馆 (中国地质调查局地学文献中心)
京ICP备 05064591号 京公网安备11010802017129号
建议浏览器: 火狐、谷歌、微软 Edge、不支持 IE