-
滑坡是地壳表层的一种地质现象,也是仅次于地震灾害的第二大地质灾害。自20世纪80年代以来,随着经济建设的快速发展及环境因素的影响,中国的滑坡灾害呈逐年加重趋势。因发生滑坡的地质环境不同,影响其稳定性的主要因素、失稳机理及危险性程度也不尽相同,因此,需要对滑坡灾害进行变形监测与分析,以便为滑坡防治提供基础信息和决策依据。
为了精准获取滑坡体的变形信息,学者们在高精度变形监测技术方面作了大量研究工作。文献[1]将全球导航卫星系统(global navigation satellite system,GNSS)实时动态载波相位差分技术应用于滑坡动态实时变形监测;文献[2]开展了精密单点定位技术用于滑坡监测中可能达到精度的研究,经验证认为该技术可以应用于滑坡的实时动态监测;文献[3]分析了复杂环境对GNSS监测技术的影响,通过建模有效剔除粗差,进一步提高了模糊度固定的成功率。除GNSS监测技术外,裂隙干涉法、地基干涉合成孔径雷达技术等监测技术也逐渐应用于滑坡的变形监测[4-5]。
为了对滑坡灾害的变形演化过程进行全面的分析和研究,需要在滑坡体上布设多种类、多数量的异构传感器来获取多维信息[6-7]。利用多传感器感知滑坡,可以获取更全面、有效的数据和信息,这些数据和信息具有一定的相关性、随机性和模糊性,如何对这些数据和信息进行有效处理是现阶段研究的一个难点。由于对单一数据和信息的独立分析可能会导致分析结果与事实大相径庭,而多源异构数据融合技术能将采集到的多源异构数据在一定准则下提取出综合信息,有效改善滑坡监测数据的可靠性,提高滑坡监测数据的利用率[8]。因此,多源异构数据融合技术逐渐成为滑坡变形数据分析的一个重要研究方向。
近年来,多源异构数据融合已在滑坡变形监测领域中取得诸多进展。有学者利用多源异构数据对滑坡进行灾害风险分析及易发性评价[9-13]。也有部分学者利用多源异构数据融合技术对滑坡进行预警分析,研究滑坡体的变形破坏特征及演化规律[14-17]。在将多源异构数据融合技术应用于滑坡位移预测方面,文献[18-19]将滑坡视为一个机动目标,将对滑坡的监测视为对目标的跟踪,提出了利用多传感器目标跟踪融合技术处理滑坡多监测点位移数据的方法,并用实例验证方法的有效性;文献[20]提出基于位移参数的Kalman滤波数据融合模型,以预测滑坡的稳定状态及变形趋势;文献[21]以时间序列分析法、多元回归分析法等信息融合算法为基础,对多源异构监测数据进行融合处理,并通过多元回归分析方法建立滑坡多因素变量之间的相关性模型,证明了回归分析拟合方法能有效减小预测结果的误差;文献[22]将滑坡变形视为时间和地下水位因子的函数,通过卡尔曼滤波模型对滑坡变形进行预测;文献[23]基于动态指数平滑模型,引入月累计降雨量对滑坡变形进行预测;文献[24]考虑滑坡诱发因素的影响,利用自回归综合移动模型对滑坡变形进行拟合及预测;文献[25]提出了一种基于反向传播((back propagation,BP)神经网络的多源异构数据融合算法,并通过相关性及显著性进行环境因子变量筛选,提高了变形预测结果的精度。
过去,滑坡预测分析注重的更多是滑坡位移量,通过数学方法挖掘时间序列的变化规律,而忽略了滑坡内在地质条件与外界影响因素对滑坡位移的影响,未能将多影响因素纳入滑坡的位移预测预报模型中,预测预报结果较差。近年来,许多文献建立多影响因素与滑坡位移之间的预测预报模型,更能体现滑坡位移受环境因素的影响,并取得了较好的预测结果,但多数文献关注的重点是各环境因子变量间的相关性,而忽视了它们之间的冗余性。
为此,本文构建了一种基于互信息(mutual information,MI)、改进粒子群优化算法(improved particle swarm optimization,IPSO)和长短期记忆神经网络(long short-term memory,LSTM)的滑坡多源异构数据融合模型,利用互信息量筛选出与滑坡变形最大相关、最小冗余(maximum relevance,minimum redundancy,mRMR)的环境因子变量,将这些环境因子变量输入经IPSO寻优后的LSTM模型中,以期融合预测滑坡的累计位移量,为滑坡后续变化趋势提供参考。
-
信息熵是一个数学上较为抽象的概念,定义公式为[26]:
H x = - ∑ x ∈ X p ( x ) l o g p ( x ) ]]>式中,x表示随机事件;X表示所有随机事件的集合;
表示事件x发生的概率。 若事件A与事件B互相不独立且满足:
H ( A , B ) = H ( A ) + H ( B ) - I ( A , B ) ]]>式中,
表示事件A与事件B的互信息量。 本文根据MI筛选滑坡环境因子变量的目的是通过将MI作为度量因子,使最终生成的环境因子变量特征子集包含更多影响因子种类,且具有更少的冗余信息。
在使用MI特征选择算法(mutual information feature selection,MIFS)筛选环境因子变量时,惩罚因子会较大程度地影响环境因子选取的结果且其值难以确定。mRMR算法是一种滤波式的特征选择方法,它将MI作为计算准则来衡量环境变量因子间的冗余度以及环境变量因子与累计位移之间的相关性,并以某种特定的方式在相关性和冗余之间进行权衡,通过最大化相关性以及最小化冗余性来筛选环境变量因子,能较好地解决惩罚因子难以选取的问题[27]。
最大相关性原则是指筛选出的环境因子与累计位移量具有最大的相关性。而当环境因子特征子集变量之间的相关性变大时,冗余度也会一定程度地增高,为了降低环境因子变量间的冗余度,让每个筛选出的环境因子变量都更具有代表性,就需要将冗余度降到最低,这就是最小冗余度原则。最大相关性及最小冗余度计算公式为:
m a x ( D ( S , c ) ) , D = 1 c a r d ( S ) ∑ x i ∈ S I ( x i , c ) ]]> m i n ( R ( S ) ) , R = 1 c a r d ( S ) 2 ∑ x i , x j ∈ S ]]>I ( x i , x j ) 式中,
为第i、j个环境因子变量;S为环境因子变量子集; 为环境因子变量子集内的环境因子变量个数;c为累计位移量; 为第i个环境因子变量与累计位移量的互信息; 为第i个环境因子变量与第j个环境因子变量的MI。 使用mRMR算法进行环境因子变量筛选的具体步骤如下:
1) 初始化已选环境因子变量集合S和未选环境因子变量F,此时集合S、F均为空集。
2) 确定未选环境因子变量
,并求各环境因子变量 与累计位移量之间的MI。 3)将各环境因子变量
与累计位移量之间的MI从大到小依次排序,确定第一环境因子变量。 4) 计算第一环境因子与未选环境因子
之间的MI值,将未选环境因子中与第一环境因子相关性最大的环境因子作为下一个已选环境因子;更新集合S和F,继续循环计算,直至筛选完所有未选环境因子。 -
LSTM是在循环神经网络(recurrent neural network,RNN)的基础上发展形成的一种特殊网络模型,它相较于传统的RNN有着更为精细的信息传递机制,能够有效解决时间序列数据长期依赖的问题,凭借其特殊的网络结构,可以记忆时间间隔较长的数据,解决传统RNN模型的长期依赖和梯度爆炸、消失问题[28]。目前,LSTM的结构设计及模型的超参数等主要还是依据经验人为设定,导致模型训练效率较低。目前已有多种智能优化算法用于神经网络的参数寻优,包括遗传算法、禁忌搜索算法、模拟退火算法、粒子群算法等,其中粒子群算法具有简单易实现、搜索速度快、效率高等优点,其在滑坡融合预测研究中已有所应用[29]。
粒子群优化算法(particle swarm optimization,PSO)是一种进化计算技术,源于人类对鸟群捕食的行为研究,其基本思想是通过群体中个体之间的协作和信息共享来寻找最优解。PSO算法流程详见有关参考文献,在此不再赘述。对于LSTM而言,利用粒子群算法寻优的方式为:将LSTM的关键超参数作为粒子在多维度上的寻优变量,通过不断更新粒子的速度和位置,计算目标函数适应度值(本文以均方根误差R作为适应度函数),从而达到全局最优,获得更优的LSTM模型超参数。
传统PSO的全局寻优能力及收敛速度有限,非线性变化惯性权重可以显著提高PSO的寻优性能[30]。在传统PSO算法中,权值w固定不变,导致算法的全局寻优能力较弱、收敛速度较慢。因此,本文将w改为非线性递减的形式,以提升算法的性能:
w = w m a x - ( w m a x - w m i n ) × a r c s i n ( t n ) × ]]>2 π 式中,w表示惯性权值因子;
、 分别为权值的最大值、最小值;t表示当前优化的代数;n为最大迭代次数。 由式(5)可知,当t较小时,w较大,且w的减小速度也较慢,能一定程度地保证算法的全局寻优能力;随着t增大,w以非线性递减,且w的减少速度迅速增加,一定程度地保证了算法的局部寻优能力,使得算法具有灵活调整全局及局部寻优的能力。
-
本文基于MI,通过mRMR算法对影响滑坡变形的环境因子变量进行筛选,将筛选后的环境因子变量输入LSTM融合模型,并使用IPSO算法对LSTM融合模型中的关键超参数进行寻优,以得到优化后的MI-IPSO-LSTM融合模型,最终实现对滑坡累计位移量的预测。MI-IPSO-LSTM融合模型的建立流程如图 1所示。
由于LSTM融合模型对数据量级的敏感性较高,而环境因子数据往往在数量级上存在着一定差异,为避免较大数值的变化覆盖较小数值的变化,需要将各输入数据约束在相似的数量级上,以免因个别数值影响预测效果。本文采用归一化处理实验数据。
I ' = ]]>i t - i m i n i m a x - i m i n 式中,
分别为处理前后的数据; 分别为原始数据中的最大值与最小值。 实验数据进行归一化预处理后,将环境因子变量作为模型的输入数据,以累计位移数据作为输出数据,在Python 3.6环境下,采用Python语言编写IPSO计算程序,并借助Keras深度学习库进行多源异构数据融合分析研究。
-
依托Keras深度学习库构建LSTM融合模型,本文模型设计为3层神经网络,其中包括两层LSTM及一层防止过拟合的dropout层。本文未进行改进粒子群参数寻优时,模型输入为多个环境因子变量,输出为累计位移量,因此LSTM的输入层神经元个数为6,输出层神经元个数为1。在本文模型中,改进粒子群算法参数设置为:种群数量为5,进化次数为10次,学习因子
,粒子 中的各参数取值范围分别为[1, 100]、[1,1 000]、[0.1,0.6]、[1, 100],速度取值范围分别为[-10, 10]、[-100, 100]、[-0.1,0.1]、[-10, 10]。由于采用的是自适应学习率优化器Adam训练LSTM融合模型内部参数,故未对学习率参数进行粒子群寻优。 -
为了考察融合模型的有效性与性能,选择均方根误差(root mean square error,RMSE)对模型的预测精度进行评价,RMSE越小代表模型的预测精度越高,其计算公式为:
S = ]]>1 N ∑ t = 1 N X p r e d i c t i o n , t - X r e a l , t 2 式中,S表示RMSE值;
表示累计位移量的预测值; 表示累计位移量的观测数据;N为测试集样本总数。 除此之外,还考察模型预测结果的平均绝对误差(mean absolute error,MAE)及拟合优度
,计算公式分别为: M = 1 N ∑ t = 1 N ]]>X p r e d i c t i o n , t - X r e a l , t R 2 = 1 - ]]>∑ t = 1 N ( X p r e d i c t i o n , t - X r e a l , t ) 2 ∑ t = 1 N X r e a l , t 2 式中,M表示MAE值。
-
发耳滑坡位于中国贵州省六盘水市水城区发耳镇发耳煤矿尖山营至范家沙坝一带,该滑坡在地形上表现为东南侧高、西北侧低,属于构造侵蚀形成的低中山至中低山地貌[31]。滑坡边界在平面上呈不规则的半圆形状,包括尖山营陡崖及其下方缓平台区,不稳定斜坡变形区前缘高程范围为1 040~1 120 m,前缘坡度约63°;斜坡体后壁近于陡立,后缘高程范围为1 380~1 502 m,滑坡体前缘、后缘高差约为483 m [32]。据现场考察,该滑坡区域地表由于地下煤层开采已经发生明显形变,形成较多大小不等的拉张裂缝,并时有碎石崩落发生,呈现持续发育迹象。此外,该滑坡体于2019年4月发生了多次局部崩落,其中3次的崩落物堆积在滑坡体下方的两条道路上,造成严重的交通安全隐患。自2019年9月起,笔者在发耳滑坡体上布设北斗/GNSS监测点,对该滑坡体进行实时监测,在滑坡体外稳定区域布设有2个基准点(FE01、FE02),在滑坡变形区域内共布设有11处监测点(FE03~FE13),发耳滑坡体各北斗/GNSS监测点的分布如图 2所示(FE02基准点离滑坡监测区域较远,未在图 2中表示)。
-
本文选取2020-01-01—2020-05-20研究区GNSS监测点FE04的滑坡累计位移量(mm)数据及温度(℃)、湿度(%)、风力(级)、云量(%)、单日降水量(mm)和累计降水量(mm)作为实验研究数据,其中滑坡累计位移量数据来源于发耳滑坡体上GNSS监测点FE04的实测数据,环境因子变量数据来源于贵州省水城气象监测站。该监测点位于滑坡体顶部,其附近有多条拉张裂缝及塌陷土坑。本文共选取141 d的监测数据,即141组数据,表 1为部分实验数据。
表 1 环境因子变量及GNSS累计位移样本数据(部分)
Table 1. Sample Data of Environmental Factor Variables and GNSS Cumulative Displacement(Part)
序号 累计位移
/mm温度
/℃湿度
/%风力
/级云量
/%单日降水量
/mm累计降水量
/mm1 0.0 16 63 7 23 0 0 49 220.2 2 89 5 79 0.2 200.3 59 252.0 17 66 6 81 29.8 234.2 80 303.2 22 44 5 10 0 316 113 369.2 13 85 5 89 39.4 501.3 降水是影响滑坡变形的重要因子之一,监测期间内滑坡累计位移与单日降水的变化情况如图 3所示。可以看出,研究区每月均有不同程度的降水,其中4月、5月降水更多,单日降水量最大达到60 mm,雨水下渗导致斜坡上的土石层饱和、滑坡体的重量增加,降低滑坡体的抗剪强度会一定程度地加速滑坡变形。
对6种环境变量进行Pearson相关性分析,计算其相关系数(表 2)。两个变量之间相关系数r的绝对值越大,两者的相关性越强。一般地,r < 0.2时,两变量为极弱相关;r > 0.6时,两变量为强相关;相关系数为0.4≤r≤0.6时,二者为中度相关。其计算公式为:
表 2 环境因子变量之间的Pearson相关系数
Table 2. Pearson Correlation Coefficient Between Environmental Factors
环境因子 温度 湿度 风力 云量 单日降水量 累计降水量 温度 1.000 -0.837 0.443 -0.597 -0.119 0.569 湿度 -0.837 1.000 -0.519 0.812 0.322 -0.324 风力 0.443 -0.519 1.000 -0.428 -0.211 -0.047 云量 -0.597 0.812 -0.428 1.000 0.465 -0.064 单日降水量 -0.119 0.322 -0.211 0.465 1.000 0.261 累计降水量 0.569 -0.324 -0.047 -0.064 0.261 1.000 r = ∑ i = 1 n ( x i - x ¯ ) ( y i - y ¯ ) ∑ i = 1 n ( x i - x ¯ ) 2 ∑ i = 1 n ( y i - y ¯ ) 2 ]]> 式中,
为Pearson相关系数; 为变量 对应的不同数值; 为变量 的平均数; 为变量 对应的不同数值; 为变量y的平均数; 为变量个数。 从表 2中可以看出,温度与湿度的相关系数为-0.837,云量与湿度的相关系数为0.812,即湿度与温度、云量为强相关;风力与温度、湿度、云量的相关系数分别为0.443、-0.519、-0.428,温度与云量、累计降水量的相关系数分别为-0.597、0.569,多组环境因子之间表现为中度相关。总的来说,这6种环境因子变量彼此之间表现出一定的相关性,即信息存在一定冗余,会一定程度地影响融合模型的预测效果,因而有必要进行环境因子筛选。
不同于通过Pearson相关系数来筛选环境因子变量,本文基于MI通过mRMR算法筛选出6种环境因子中对滑坡累计位移信息增益较大的环境因子变量,亦即是与累计位移具有最大相关性及最小冗余性的环境因子,以进一步研究不同筛选方法对滑坡累计位移预测精度的影响。
MI是两个随机变量间相互依赖的量度,其取值范围为[0, 1]。通俗地讲,MI是一个随机变量包含另一个随机变量的信息量,MI越大,其信息增益也越大。由表 3可以看出,累计降水量、温度、湿度与累计位移的相关性分别为强相关、中度相关及低相关,这3个环境因子即为通过Pearson相关系数筛选出的环境因子;而由MI指标可知,湿度、云量、累计降水量与滑坡位移变化量信息的依赖度较高,其中累计降水量与位移变化量的MI最大,达到0.925。基于MI,通过mRMR算法筛选出3个环境因子:累计降水量、温度及风力。本文分别取Pearson相关系数筛选出的3个环境因子与MI筛选出的3个环境因子作为模型的输入变量进行对比分析。
表 3 环境因子变量与累计位移的相关性和MI
Table 3. Correlation and Mutual Information Between Environmental Factor Variables and Cumulative Displacements
筛选方法 温度 湿度 风力 云量 单日降水量 累计降水量 相关系数 0.506 -0.279 -0.088 -0.035 0.207 0.923 MI 0.787 0.879 0.534 0.902 0.788 0.925 -
将多源数据划分为训练集和测试集,本文选择第1~135组数据作为训练样本,第136~140组数据作为测试样本。将环境因子变量作为输入,累计位移量作为输出,具体实验步骤为:
1) 实验数据归一化处理。
2) 划分实验数据为训练集和测试集。本文预测时间步长为1 d,即使用上一日的环境影响因子预测当日累计位移量,因此训练集数据为第1~135组的环境影响因子,训练集的输出为第2~136组的累计位移量数据;测试集数据为第136~140组的环境影响因子,测试集的输出为第137~141组的位移变化量数据。
3) 输入训练集数据进行LSTM模型训练,获得训练好的模型;将测试集数据输入模型,将模型输出结果反归一化后的值作为融合模型的预测累计位移量。
根据上述步骤进行4个实验,以此对比分析LSTM模型的预测性能、基于MI的环境因子筛选方法的优越性、改进粒子群参数寻优对融合模型的提升效果。
-
为了测试LSTM单模型的预测性能,选取广泛应用于滑坡位移预测方面的BP神经网络模型进行比对。将6组环境因子变量输入至BP神经网络及LSTM神经网络进行训练,并获取测试集的预测结果,预测结果见表 4。
表 4 LSTM模型与BP神经网络模型预测位移变化量的对比
Table 4. Comparison of Displacement Changes Predicted by the Fusion of LSTM Model and BP Model
序号 BP预测累计位移量/mm LSTM预测累计位移量/mm 实际累计位移量/mm 137 423.9 395.2 404.4 138 427.8 398.0 408.1 139 433.8 396.1 409.0 140 422.1 382.6 409.5 141 439.1 399.9 413.0 RMSE/mm 21.1 15.8 MAE/mm 20.5 14.4 0.948 0.961 从表 4可以看出,LSTM模型预测的均方误差达到15.8 mm,MAE为14.4 mm,得益于其独特的网络结构及对序列具备长期记忆的能力,预测精度明显优于BP神经网络模型。
-
为了测试LSTM模型在不同训练样本长度下的预测性能,选取116 d、121 d、126 d、131 d及136 d的数据进行预测,分析其预测最后5 d的精度。将5组不同长度的环境因子变量训练集输入至LSTM神经网络进行训练,并预测第137~141天的累计位移结果,预测结果精度见表 5。
表 5 LSTM模型不同训练样本的融合预测结果对比
Table 5. Comparison of Fusion Prediction Results ofDifferent Training Samples of LSTM Model
训练样本长度/d RMSE/mm MAE/mm 116 110.9 109.9 0.729 121 75.0 74.8 0.817 126 32.4 31.4 0.921 131 17.6 17.4 0.957 136 15.8 14.4 0.961 一般地,采用LSTM进行模型训练时,训练样本的样本量越多,精度越好;但在训练的过程中,仍需要注意过拟合现象的发生,这会导致训练集的精度较高,而验证集的效果差。从表 5中可以看出,当增加训练样本长度时,融合预测的精度逐步提高。其中136 d训练样本长度相较于131 d,精度提升相对较小。为比较不同筛选方法对融合预测模型的影响,统一采用136 d训练样本进行实验。
-
为了测试MI环境因子筛选方法的优越性,与传统Pearson相关系数筛选方法进行比较。当使用MI进行mRMR变量筛选时,累计降水量、温度及风力3个环境因子更能体现出累计位移量;使用Pearson相关系数进行变量筛选时,计算各环境变量因子与累计位移量的Pearson系数,最终确定与累计位移量相关性较高的变量因子为累计降水量、温度、湿度。因此,将2种不同环境因子输入至同一LSTM模型,构造MI-LSTM模型及Pearson-LSTM模型,对比分析两种筛选方法的优缺点,见表 6。
表 6 不同环境因子变量筛选方法的结果对比
Table 6. Results Comparison of Screening Methods for Different Environmental Factors
序号 MI筛选/mm Pearson相关系数筛选/mm 实际累计位移量/mm 137 410.6 409.2 404.4 138 414.7 416.7 408.1 139 416.6 425.3 409.0 140 409.7 394.6 409.5 141 418.0 420.8 413.0 RMSE/mm 5.7 11.4 MAE/mm 5.1 10.5 0.986 0.972 对比表 4、表 6可以发现,基于MI筛选的环境因子变量利用LSTM模型预测的结果相对于传统的Pearson相关系数筛选方法更优,累计位移量的预测值更接近实际值,均方根误差与平均绝对误差优于未筛选环境因子的LSTM模型结果。当选取到合适的特征变量时,可以一定程度地改善模型预测精度;同样地,特征变量的选取方法会影响模型预测精度,本文选取MI方法进行特征变量筛选,筛选后的模型预测结果RMSE、MAE较之前分别提升63.9%、64.6%。
-
为了克服模型训练过程中超参数人为设定的问题,进一步利用改进粒子群对LSTM模型参数进行寻优。因LSTM模型的预测结果RMSE为15.8 mm,故将改进粒子群寻优的初始适应度值设为15.8,模型的输入为经MI筛选后的环境因子,寻优按照§1.2中的步骤进行。经改进粒子群寻优后,确定LSTM模型的4个参数
分别为26、936、0.229、16。寻优模型精度与各模型精度对比如表 7所示,经IPSO寻优后模型预测精度进一步提高,RMSE、MAE相较于MI-LSTM模型分别提高了54.4%、66.7%;且各模型的拟合优度均大于0.9,其中MI-IPSO-LSTM融合预测模型的预测结果拟合优度达到0.994。 表 7 不同融合模型的预测精度
Table 7. Prediction Accuracy of Different Fusion Models
模型 RMSE/mm MAE/mm BP 21.1 20.5 0.948 LSTM 15.8 14.4 0.961 Pearson-LSTM 11.4 10.5 0.972 MI-LSTM 5.7 5.1 0.986 MI-IPSO-LSTM 2.6 1.7 0.994 图 4是不同LSTM融合模型的绝对误差图。可以看出,MI-LSTM融合模型的预测绝对误差除第137天略高于Pearson-LSTM融合模型外,其余各天均低于Pearson-LSTM融合模型。这表明相较于Pearson筛选方法,经MI筛选后的环境因子融合后能更准确地预测滑坡累计位移。经IPSO寻优后的MI-LSTM融合模型预测绝对误差明显更低,但第140天的预测结果较差。这是因为在使用IPSO进行参数寻优时,仅选取RMSE作为适应度函数,可能会出现个别预测值绝对误差偏大的情况。总体而言,MI-IPSO-LSTM融合模型的预测绝对误差明显低于Pearson-LSTM融合模型,且相较于MI-LSTM融合模型也有一定程度的提升,显示出本文提出的融合模型具有一定的优越性。
通过以上研究可知,LSTM神经网络数据融合模型适用于具有多源异构监测数据的滑坡变形预测。融合模型通过训练可以找到多个环境因子变量与位移变量间的非线性关系,筛选出相关性较高的环境因子,有助于提升模型的预测精度;相较于Pearson相关系数筛选方法,基于MI的筛选方法融合预测效果更优;通过改进粒子群优化LSTM模型,融合模型的预测精度进一步提高。
-
本文以贵州省六盘水市水城区发耳滑坡为研究区,针对滑坡位移变形受多种环境因子变量影响的问题,研究了滑坡多源异构数据融合问题,提出了一种MI-IPSO-LSTM融合模型,得出结论如下:
1) LSTM模型因其独特的网络结构,对于非线性数据具有较强的学习能力,能较好地融合各种环境因子预测滑坡累计位移量,且预测精度优于BP神经网络模型,同时通过设置不同训练样本长度验证了LSTM网络在样本数量较多时融合预测效果更优。
2) 通过MI与mRMR结合的方法筛选出的3个环境因子作为模型的输入,且与传统Pearson相关系数筛选出的环境因子对比,得出基于MI筛选的环境因子在模型中的预测结果更优。
3) 利用粒子群算法可以避免人为选择LSTM模型参数带来的不利影响,并在PSO算法中加入非线性变化权重,可以提高算法的全局寻优能力和收敛速度。
4) 在采用MI筛选方法对环境因子变量进行筛选后,通过改进粒子群优化LSTM模型参数,优化后的融合模型预测结果较好,RMSE达到2.6 mm,MAE达到1.7 mm,拟合优度达0.994。
本文所提的融合模型在滑坡累计位移预测方面具有较高的预测精度,对于提高滑坡监测预警的可靠性具有重要参考价值。需要说明的是,本文仅收集了几种典型的环境因子,在实际应用中还可考虑区域的地下水位、土壤湿度及人类活动等其他影响因素,进一步改善融合模型的预测精度及可靠性。
A Multi-source Heterogeneous Data Fusion Method for Landslide Monitoring with Mutual Information and IPSO-LSTM Neural Network
-
摘要: 针对滑坡监测中的多源异构数据融合问题, 结合互信息(mutual information, MI)、改进粒子群优化算法(improved particle swarm optimization, IPSO)和长短期记忆神经网络(long short-term memory, LSTM), 提出一种新的多源异构监测数据融合方法。该方法基于互信息对影响滑坡变形的多个环境因子变量进行筛选,将筛选后的环境因子变量作为LSTM模型的输入变量,以滑坡累计位移量数据作为期望输出数据,并通过改进的粒子群寻优方法对模型进行参数寻优,获取模型的最优参数组合,进一步提高融合模型的预测精度。采用中国贵州省六盘水市水城县发耳滑坡的全球导航卫星系统(global navigation satellite system, GNSS)实测数据进行实验, 结果表明:基于互信息和IPSO-LSTM的数据融合算法适用于具有多源异构监测数据的滑坡变形预测, 且基于互信息的环境因子变量筛选方法优于Pearson相关系数筛选方法, 经改进粒子群算法参数寻优后,融合模型的均方根误差(root mean square error,RMSE)达到2.6 mm,平均绝对误差达到1.7 mm,拟合优度达0.994。Abstract:
Objectives Based on the interaction characteristics of various environmental factors affecting landslide deformation, a new method for multi-source heterogeneous monitoring data fusion is proposed to improve the accuracy of landslide deformation prediction. Methods First, environmental factors are selected based on mutual information method.Then, the selected environmental factors are taken as the input varia-bles of long short-term memory(LSTM) model, and the accumulated displacement data of landslide are taken as the expected output data, and the parameters of the model are optimized through improved particle swarm optimization method, so as to further improve the prediction accuracy of the fusion model.The global navigation satellite system(GNSS) data of Fa'er landslide in Shuicheng County, Liupanshui City, Guizhou Province are analyzed. Results Experimental results show that the improved particle swarm optimization(IPSO)-LSTM neural network data fusion algorithm, based on mutual information is suitable for landslide deformation prediction with multi-source heterogeneous monitoring data.The environmental factor variable selection method based on mutual information is better than Pearson correlation coefficient selection method. After optimizing the parameters of the improved particle swarm optimization algorithm, the prediction accuracy of the fusion model is higher. Conclusions The proposed fusion prediction model has high prediction accuracy in landslide cumulative displacement prediction, which has important reference value for improving the reliability of landslide monitoring and early warning. It should be noted that only a few typical environmental factors are collected. In practical application, other factors such as groundwater level, soil moisture and human activities can be considered to further improve the prediction accuracy and reliability of the fusion model. -
Key words:
- landslide monitoring /
- data fusion /
- LSTM /
- mutual information /
- PSO /
- prediction
-
表 1 环境因子变量及GNSS累计位移样本数据(部分)
Table 1. Sample Data of Environmental Factor Variables and GNSS Cumulative Displacement(Part)
序号 累计位移
/mm温度
/℃湿度
/%风力
/级云量
/%单日降水量
/mm累计降水量
/mm1 0.0 16 63 7 23 0 0 49 220.2 2 89 5 79 0.2 200.3 59 252.0 17 66 6 81 29.8 234.2 80 303.2 22 44 5 10 0 316 113 369.2 13 85 5 89 39.4 501.3 表 2 环境因子变量之间的Pearson相关系数
Table 2. Pearson Correlation Coefficient Between Environmental Factors
环境因子 温度 湿度 风力 云量 单日降水量 累计降水量 温度 1.000 -0.837 0.443 -0.597 -0.119 0.569 湿度 -0.837 1.000 -0.519 0.812 0.322 -0.324 风力 0.443 -0.519 1.000 -0.428 -0.211 -0.047 云量 -0.597 0.812 -0.428 1.000 0.465 -0.064 单日降水量 -0.119 0.322 -0.211 0.465 1.000 0.261 累计降水量 0.569 -0.324 -0.047 -0.064 0.261 1.000 表 3 环境因子变量与累计位移的相关性和MI
Table 3. Correlation and Mutual Information Between Environmental Factor Variables and Cumulative Displacements
筛选方法 温度 湿度 风力 云量 单日降水量 累计降水量 相关系数 0.506 -0.279 -0.088 -0.035 0.207 0.923 MI 0.787 0.879 0.534 0.902 0.788 0.925 表 4 LSTM模型与BP神经网络模型预测位移变化量的对比
Table 4. Comparison of Displacement Changes Predicted by the Fusion of LSTM Model and BP Model
序号 BP预测累计位移量/mm LSTM预测累计位移量/mm 实际累计位移量/mm 137 423.9 395.2 404.4 138 427.8 398.0 408.1 139 433.8 396.1 409.0 140 422.1 382.6 409.5 141 439.1 399.9 413.0 RMSE/mm 21.1 15.8 MAE/mm 20.5 14.4 0.948 0.961 表 5 LSTM模型不同训练样本的融合预测结果对比
Table 5. Comparison of Fusion Prediction Results ofDifferent Training Samples of LSTM Model
训练样本长度/d RMSE/mm MAE/mm 116 110.9 109.9 0.729 121 75.0 74.8 0.817 126 32.4 31.4 0.921 131 17.6 17.4 0.957 136 15.8 14.4 0.961 表 6 不同环境因子变量筛选方法的结果对比
Table 6. Results Comparison of Screening Methods for Different Environmental Factors
序号 MI筛选/mm Pearson相关系数筛选/mm 实际累计位移量/mm 137 410.6 409.2 404.4 138 414.7 416.7 408.1 139 416.6 425.3 409.0 140 409.7 394.6 409.5 141 418.0 420.8 413.0 RMSE/mm 5.7 11.4 MAE/mm 5.1 10.5 0.986 0.972 表 7 不同融合模型的预测精度
Table 7. Prediction Accuracy of Different Fusion Models
模型 RMSE/mm MAE/mm BP 21.1 20.5 0.948 LSTM 15.8 14.4 0.961 Pearson-LSTM 11.4 10.5 0.972 MI-LSTM 5.7 5.1 0.986 MI-IPSO-LSTM 2.6 1.7 0.994 -
[1] 王利, 张勤, 李寻昌, 等. GPS RTK技术用于滑坡动态实时变形监测的研究[J]. 工程地质学报, 2011, 19(2): 193-198 Wang Li, Zhang Qin, Li Xunchang, et al. Application of GPS RTK Technology in Landslide Dynamic Real-Time Deformation Monitoring[J]. Journal of Engineering Geology, 2011, 19(2): 193-198 [2] 王利, 张勤, 黄观文, 等. GPS PPP技术用于滑坡监测的实验与结果分析[J]. 岩土力学, 2014, 35(7): 2 118-2 124 Wang Li, Zhang Qin, Huang Guanwen, et al. Test and Result Analysis of Landslide Monitoring Using GPS PPP Technology[J]. Rock and Soil Mechanics, 2014, 35(7): 2 118-2 124 [3] 韩军强. 高精度GNSS实时滑坡变形监测技术及环境建模分析研究[J]. 测绘学报, 2020, 49 (3): 397 Han Junqiang. Research on High Precision GNSS Real Time Landslide Deformation Monitoring Technology and Environmental Modeling[J]. Acta Geodaetica et Cartographica Sinica, 2020, 49(3): 397 [4] Shi Xuguo, Liao Mingsheng. Landslide Displacement Monitoring with Split-Bandwidth Interferometry: A Case Study of the Shuping Landslide in the Three Gorges Area[J]. Remote Sensing, 2017, 9: 937 doi: 10.3390/rs9090937 [5] Woods A, Macciotta R, Hendry M T, et al. Updated Understanding of the Deformation Characteristics of the Checkerboard Creek Rock Slope Through GB-InSAR Monitoring[J]. Engineering Geology, 2020, 281(1): 105974 [6] 欧阳祖熙, 张宗润, 丁凯, 等. 基于3S技术和地面变形观测的三峡库区典型地段滑坡监测系统[J]. 岩石力学与工程学报, 2005, 24(18): 3 203-3 210 Ouyang Zuxi, Zhang Zongrun, Ding Kai, et al. Slope Monitoring System of Three Gorges Area Based on 3S Techniques and Ground Deformation Observation[J]. Journal of Rock Mechanics and Engineering, 2005, 24(18): 3 203-3 210 [7] 陈明金, 欧阳祖熙, 范国胜. 基于数据融合的滑坡综合监测信息提取方法[J]. 大地测量与地球动力学, 2007, 27(6): 77-81 Chen Mingjin, Ouyang Zuxi, Fan Guosheng. Extraction Method of Landslide Comprehensive Monitoring Information Based on Data Fusion[J]. Journal of Geodesy and Geodynamics, 2007, 27(6): 77-81 [8] 孙波. 多传感器融合估计算法的研究及在滑坡中的应用[D]. 武汉: 中国地质大学, 2012 Sun Bo. Research on Multi-sensor Fusion Estimation Algorithm and Its Application in Landslide[D]. Wuhan: China University of Geosciences, 2012 [9] 王静. 基于QuantyView和多源数据的滑坡体三维地质建模技术研究[D]. 武汉: 中国地质大学, 2013 Wang Jing. Research on 3D Geological Modeling Technology of Landslide Based on Quanty View and Multi-source Data[D]. Wuhan: China University of Geosciences, 2013 [10] 于宪煜. 基于多源数据和多尺度分析的滑坡易发性评价方法研究[D]. 武汉: 中国地质大学, 2016 Yu Xianyu. Landslide Susceptibility Evaluation Method Based on Multi-source Data and Multi-scale Analysis[D]. Wuhan: China University of Geosciences, 2016 [11] 邱丹丹. 基于多源数据融合的滑坡风险分析研究[D]. 武汉: 中国地质大学, 2017 Qiu Dandan. Landslide Risk Analysis Based on Multi-source data Fusion[D]. Wuhan: China University of Geosciences, 2017 [12] Villalpando F, Tuxpan J, Ramos-Leal J A, et al. New Framework Based on Fusion Information from Multiple Landslide Data Sources and 3D Visualization[J]. Journal of Earth Science, 2020, 31(1): 159-168 [13] 张宁. 基于多源遥感数据的滑坡风险度评价研究[D]. 长沙: 中南大学, 2009 Zhang Ning. Landslide Risk Assessment Based on Multi-source Remote Sensing Data[D]. Changsha: Central South University, 2009 [14] Zhang Yaohui, Wang Li, Shu Bao, et al. Applica-tion of an Adaptive Weighted Estimation Fusion Algorithm in Landslide Deformation Monitoring Data Processing[C]//IOP Conference Series: Earth and Environmental Science, Beijing, China, 2020 [15] 王来阳. 面向多源异步传感器滑坡监测数据融合及稳定性分析[D]. 北京: 北京建筑大学, 2019 Wang Laiyang. Landslide Monitoring Data Fusion and Stability Analysis for Multi-source Asynchronous Sensors [D]. Beijing: Beijing University of Civil Engineering and Architecture, 2019 [16] 解明礼, 赵建军, 巨能攀, 等. 多源数据滑坡时空演化规律研究: 以黄泥坝子滑坡为例[J]. 武汉大学学报·信息科学版, 2020, 45(6): 923-932 doi: 10.13203/j.whugis20190060 Xie Mingli, Zhao Jianjun, Ju Nengpan, et al. Research on Temporal and Spatial Evolution of Landslide Based on Multisource Data: A Case Study of Huangnibazi Landslide[J]. Geomatics and Information Science of Wuhan University, 2020, 45(6): 923-932 doi: 10.13203/j.whugis20190060 [17] 霍冬冬, 亓星. 多源数据融合在岩质滑坡监测预警中的应用[J]. 四川理工学院学报(自然科学版), 2019, 32(5): 63-68 Huo Dongdong, Qi Xing. Application of Multi-source Data Fusion in Rock Landslide Monitoring and Early Warning[J]. Journal of Sichuan University of Science and Technology(Natural Science Edition), 2019, 32(5): 63-68 [18] 郭科, 彭继兵, 许强. 应用多传感器目标跟踪融合技术实现滑坡多点监测数据综合信息的提取[J]. 地球物理学进展, 2005, 20(3): 808-813 Guo Ke, Peng Jibing, Xu Qiang. Realization of the Extraction of Comprehensive Information of Multi-station Monitoring Data of Landslide with the Technique of Multisensor Target Tracking [J]. Progress in Geophysics, 2005, 20(3): 808-813 [19] 郭科, 彭继兵, 许强, 等. 滑坡多点数据融合中的多传感器目标跟踪技术应用[J]. 岩土力学, 2006, 27(3): 479-481 Guo Ke, Peng Jibing, Xu Qiang, et al. Application of Multi-sensor Target Tracking to Multi-station Monitoring Data Fusion in Landslide[J]. Rock and Soil Mechanics, 2006, 27(3): 479-481 [20] 刘超云, 尹小波, 张彬. 基于Kalman滤波数据融合技术的滑坡变形分析与预测[J]. 中国地质灾害与防治学报, 2015, 26(4): 30-35 Liu Chaoyun, Yin Xiaobo, Zhang Bin. Landslide Deformation Analysis and Prediction Based on Kalman Filtering Data Fusion Technology[J]. Chinese Journal of Geological Hazards and Prevention, 2015, 26(4): 30-35 [21] 樊俊青. 面向滑坡监测的多源异构传感器信息融合方法研究[D]. 北京: 中国地质大学, 2015 Fan Junqing. Research on Multi-source Heteroge-neous Sensor Information Fusion Method for Land-slide Monitoring [D]. Beijing: China University of Geosciences, 2015 [22] 陆付民, 王尚庆, 李劲, 等. 顾及地下水位因子的卡尔曼滤波模型在滑坡变形预测中的应用[J]. 武汉大学学报·信息科学版, 2010, 35(10): 1 184-1 187 http://ch.whu.edu.cn/article/id/1084 Lu Fumin, Wang Shangqing, Li Jin, et al. Application of Kalman Filter Model Considering Groundwater Level Factors to Landslide Deformation Forecast [J]. Geomatics and Information Science of Wuhan University, 2010, 35(10): 1 184-1 187 http://ch.whu.edu.cn/article/id/1084 [23] 段功豪, 牛瑞卿, 赵艳南, 等. 基于动态指数平滑模型的降雨诱发型滑坡预测[J]. 武汉大学学报·信息科学版, 2016, 41(7): 958-962 doi: 10.13203/j.whugis20140276 Duan Gonghao, Niu Ruiqing, Zhao Yannan, et al. Rainfall-Induced Landslide Prediction Based on Dynamic Exponential Smoothing Model[J]. Geomatics and Information Science of Wuhan University, 2016, 41(7): 958-962 doi: 10.13203/j.whugis20140276 [24] 段功豪, 牛瑞卿, 彭令, 等. 诱发因素影响下的滑坡参数优化预测模型研究[J]. 武汉大学学报·信息科学版, 2017, 42(4): 531-536 doi: 10.13203/j.whugis20140913 Duan Gonghao, Niu Ruiqing, Peng Ling, et al. A Landslide Displacement Prediction Research Based on Optimization Parameter ARIMA Model Under the Inducing Factors[J]. Geomatics and Information Science of Wuhan University, 2017, 42(4): 531-536 doi: 10.13203/j.whugis20140913 [25] 王智伟, 王利, 黄观文, 等. 基于BP神经网络的滑坡监测多源异构数据融合算法研究[J]. 地质力学学报, 2020, 26(4): 575-582 Wang Zhiwei, Wang Li, Huang Guanwen, et al. Research on Multi-source Heterogeneous Data Fusion Algorithm of Landslide Monitoring Based on BP Neural Network[J]. Journal of Geomechanics, 2020, 26(4): 575-582 [26] Afyouni S, Smith S M, Nichols T E. Effective Degrees of Freedom of the Pearson s Correlation Coefficient Under Autocorrelation[J]. Elsevier Sponsored Documents, 2019, 199: 609-625 [27] Peng H, Long F, Ding C. Feature Selection Based on Mutual Information Criteria of Max-dependency, Max-relevance, and Min-redundancy [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(8): 1 226-1 238 [28] 戴邵武, 陈强强, 刘志豪, 等. 基于EMD-LSTM的时间序列预测方法[J]. 深圳大学学报(理工版), 2020, 37(3): 265-270 Dai Shaowu, Chen Qiangqiang, Liu Zhihao, et al. Time Series Prediction Based on EMD-LSTM Model[J]. Journal of Shenzhen University(Science and Engineering Edition), 2020, 37(3): 265-270 [29] 彭令, 牛瑞卿, 赵艳南, 等. 基于核主成分分析和粒子群优化支持向量机的滑坡位移预测[J]. 武汉大学学报·信息科学版, 2013, 38(2): 148-152 http://ch.whu.edu.cn/article/id/6093 Peng Ling, Niu Ruiqing, Zhao Yannan, et al. Prediction of Landslide Displacement Based on KPCA and PSO-SVR[J]. Geomatics and Information Science of Wuhan University, 2013, 38(2): 148-152 http://ch.whu.edu.cn/article/id/6093 [30] 李万, 冯芬玲, 蒋琦玮. 改进粒子群算法优化LSTM神经网络的铁路客运量预测[J]. 铁道科学与工程学报, 2018, 15(12): 3 274-3 280 Li Wan, Feng Fenling, Jiang Qiwei. Railway Passenger Volume Prediction Based on Improved Particle Swarm Optimization and LSTM Neural Network [J]. Journal of Railway Science and Engineering, 2018, 15(12): 3 274-3 280 [31] 李海军, 董建辉, 朱要强, 等. 贵州发耳煤矿尖山营滑坡特征及成因机制[J]. 科学技术与工程, 2019, 19(26): 345-351 Li Haijun, Dong Jianhui, Zhu Yaoqiang, et al. Characteristics and Genesis Mechanism of Jianshanying Landslide in Faer Coal Mine, Guizhou Province [J]. Science Technology and Engineering, 2019, 19(26): 345-351 [32] 陈立权, 赵超英, 任超锋, 等. 光学遥感用于贵州发耳镇尖山营滑坡监测研究[J]. 中国岩溶, 2020, 39(4): 518-523 Chen Liquan, Zhao Chaoying, Ren Chaofeng, et al. Monitoring the Jianshanying Landslide in a Karst Mountainous Area of Guizhou by Optical Remote Sensing [J]. Carsologica Sinica, 2020, 39 (4): 518-523 -