Handling data imbalance in machine learning based landslide susceptibility mapping: a case study of Mandakini River Basin, North-Western Himalayas

机器学习方法需要大量数据来训练模型。滑坡易发性绘图所需的数据是作为预测因子的滑坡诱发因素和作为响应变量的滑坡清单的集合;然而,滑坡并不是到处都会发生,且在一个地区内滑坡的发生也是有限的。这种地球物理现象导致了严重的类分布不均衡,其中滑坡样本数量(少数类)明显少于非滑坡位置(多数类)。滑坡数据的不均衡影响了学习算法的预测能力,因此,最终模型在样本较少的类别中表现不佳。本研究采用了两种欠采样技术,即EasyEnsemble(EE)和BalanceCascade(BC),以减少数据不均衡的影响。在2004年至2013年间发生的滑坡被随机分为两组,即70%的样本用于训练,30%的样本用于测试,而在2014年至2017年发生的滑坡用于验证。将平衡后的数据与支持向量机(SVM)和人工神经网络(ANN)结合,从而形成四种新的易发性绘图方法,即EESVM、EEANN、BCSVM和BCANN。我们使用了召回率、几何平均值、精度、准确性和Heidke技能得分等多项指标来评估滑坡敏感性地图的性能。对于不均衡数据, SVM和ANN的AUC为0.50,这表明该模型不能区分滑坡和非滑坡位置。这种错误分类是由于滑坡样本数量较少和严重的类别偏差造成的。使用EE和BC方法的平衡数据给出了有希望的结果,并显示出显著的改进,其中EESVM、EEANN、BCSVM和BCANN的AUC分别为0.869、0.918、0.881和0.923。在所有方法中,EEANN的召回率和G均值最高,这表明EEANN在滑坡样本上具有最佳的分离性能。此外,我们使用AUC的标准误差(SE)和95%置信区间来测试分类和欠采样方案的各种组合的显著性。在所有方法中,EESVM和BCSVM的SE最高。根据多个准确性指标,我们得出结论,EEANN的性能优于其他所有方法。基于BC的方法在滑坡易发性绘图中表现不佳,对滑坡样本的误分类率最高。研究表明,使用SVM和ANN在均衡数据上制作的易发性图比在不均衡数据上的准确性有显著改善。

同主题文献

京ICP备 05064591号京公网安备11010802017129号

建议浏览器: 火狐、谷歌、微软 Edge、不支持 IE