两种适用于线性回归EIV模型的高崩溃污染率算法

齐志军, 方兴, 吕志鹏

齐志军, 方兴, 吕志鹏. 两种适用于线性回归EIV模型的高崩溃污染率算法[J]. 武汉大学学报 ( 信息科学版), 2025, 50(1): 74-82. DOI: 10.13203/j.whugis20220441
引用本文: 齐志军, 方兴, 吕志鹏. 两种适用于线性回归EIV模型的高崩溃污染率算法[J]. 武汉大学学报 ( 信息科学版), 2025, 50(1): 74-82. DOI: 10.13203/j.whugis20220441
QI Zhijun, FANG Xing, LÜ Zhipeng. Two Algorithms with High Breakdown Points Applied in Linear Regression EIV Model[J]. Geomatics and Information Science of Wuhan University, 2025, 50(1): 74-82. DOI: 10.13203/j.whugis20220441
Citation: QI Zhijun, FANG Xing, LÜ Zhipeng. Two Algorithms with High Breakdown Points Applied in Linear Regression EIV Model[J]. Geomatics and Information Science of Wuhan University, 2025, 50(1): 74-82. DOI: 10.13203/j.whugis20220441

两种适用于线性回归EIV模型的高崩溃污染率算法

基金项目: 

国家自然科学基金 41774009

国家自然科学基金青年科学基金 42204047

详细信息
    作者简介:

    齐志军,硕士,主要从事测量数据处理方面的研究。2016301610038@whu.edu.cn

    通讯作者:

    吕志鹏,博士,讲师。lv_zhipeng1989@qq.com

Two Algorithms with High Breakdown Points Applied in Linear Regression EIV Model

  • 摘要:

    混合总体最小二乘是求解带有固定列的线性回归变量误差(errors-in-variables,EIV)模型的严密方法,结合M估计可以进一步增加其稳健性。但是M估计结果受初值影响,容易收敛错误。针对该问题,将两种高斯-马尔可夫模型下的抗差估计算法拓展到EIV模型中,提出两种高崩溃污染率的算法,即加权总体最小平方中值法(weighted total least median of squares,WTLMS)和加权截断总体最小二乘法(weighted total least trimmed squares,WTLTS)。分析两种算法的等变性质和崩溃污染率,给出单位权中误差的评定公式,分别通过重采样方法和可行集算法得到参数估计值。不同于已有的高崩溃污染率算法,所提算法考虑系数矩阵存在固定列的情况,同时减少对随机模型的限制。仿真数据和真实数据解算结果验证了两种算法在高粗差污染的观测数据中能够得到稳健可靠的估计结果。

    Abstract:
    Objectives 

    Linear regression model is a basic model in the field of geodesy. To consider the structure of the coefficient matrix with the fixed column, the mixed least squares and total least squares method is implemented. However, it is easily contaminated by outliers. The M-estimator results depend on the initial value and are extremely prone to convergence badly. To increase the robustness, we propose two algorithms with high breakdown points for linear regression errors-in-variables (EIV) models, namely, the weighted total least median of squares (WTLMS) method and the weighted total least trimmed squares (WTLTS) method.

    Methods 

    The two algorithms are extensions of traditional algorithms and use a more general stochastic model. Their breakdown points are near 50% and the two algorithms have two equivariant properties: scale equivariance and affine equivariance. The estimation formula of variance components is given. Since their objective functions are not differentiable, WTLMS and WTLTS get the solutions by the resampling algorithm and the feasible set algorithm in the EIV model respectively.

    Results 

    The results show that: (1) The result of the M-estimator is biased heavily from the real line, while the two proposed algorithms can obtain results close to the true value. Their performances are significantly better than M-estimator in terms of root mean square error and standard deviation. The efficiency of the two algorithms is not high, which can be further improved when the results of the two algorithms are used as the initial value of the M-estimator. The breakdown points of the two algorithms are close to 50% in the real data, which is extremely robust. (2) In the experiment of the LiDAR data, the performance of the proposed methods is better than that of the M-estimator.

    Conclusions 

    The two proposed algorithms have outstanding robustness, but their complexities are high and their efficiency is not ideal. We will focus to find an easy solution with higher efficiency.

  • 线性回归模型是测绘领域中的一种基本模型,在直线拟合、点云平面拟合等方面应用十分广泛。传统方法只考虑观测向量误差,建立高斯-马尔可夫(Gauss-Markov,GM)模型,采用最小二乘(least square,LS)得到参数估值。此方法忽略系数矩阵的误差,估计结果在统计上是有偏的[1]。为了顾及观测向量和系数矩阵的误差,文献[2]拓展GM模型到变量误差(errors-in-variables,EIV)模型,并采用总体LS(total LS,TLS)求解参数。

    当粗差污染观测向量和系数矩阵中的观测值时,TLS得到的估计值将会严重失真[3]。为了削弱粗差的不利影响,将稳健估计理论应用到EIV模型的解算,主要分为两类:(1)基于均值漂移模型识别粗差。文献[4]使用稳健加权TLS(robust weighted TLS,RWTLS)拟合点云平面,通过3倍中误差准则剔除粗差,文献[5]采用Baarda粗差探测法定位异常观测值。然而对于可疑粗差,基于识别的方法缺乏较好的处理手段。(2)基于方差膨胀模型控制粗差的影响。文献[6]使用同一单位权中误差对粗差进行降权,文献[7-8]对于观测向量和系数矩阵采用不同的单位权中误差进行处理,文献[9]和文献[10]分别针对三维坐标转换模型和多变量EIV模型提出相应的稳健方法。以上方法保留TLS处理正常观测数据的优良特性,但求解的是非凸优化问题,采用对粗差敏感的TLS结果作为初值,参数估值极其容易失真。

    为了提高算法的崩溃污染率,文献[11]采用中位参数法建立RWTLS算法,但是算法稳健性和参数个数有关,实际中远达不到50%的最高崩溃污染率;文献[12]将传统的最小平方中值法(least median of squares,LMS)和截断最小二乘法(least trimmed squares,LTS)[12]应用到EIV模型中,提出总体LMS(total LMS,TLMS)[13]和截断总体最小二乘法(total LTS,TLTS)[14],但是两种方法对随机模型的结构有严格限制,前者要求独立等精度观测,后者系数矩阵对应的协因数矩阵满足特定结构,都不具备通用性。求解方法上,前者是一个抽样检验过程,参数精度较低,后者通过分支界定算法求得精确解,但是存在大量的冗余计算。

    针对现有算法的不足,本文提出了两种高崩溃污染率的稳健估计算法,分别是加权TLMS(weighted TLMS,WTLMS)和加权TLTS(weighted TLTS,WTLTS)。从线性回归EIV模型出发,计算数据点到拟合超平面的加权残差。为了避免粗差的影响,分别基于中位数准则和截断准则得到两种改进算法的目标函数,进一步证明两种算法具有估计等变性和高崩溃污染率。不同于传统的高崩溃污染率算法,本文算法能够顾及系数矩阵的固定列,并且考虑同一个观测方程中的观测元素存在相关性的情况,随机模型更具通用性。因为目标函数不可导,基于梯度的优化算法将失效,借鉴LMS和LTS的求解思路,给出两种算法的求解过程。仿真实验和实测数据验证了本文算法的高崩溃污染率,但本文算法有效性不足,可以作为RWTLS的初值,获得有效性更佳的参数估值。

    求解线性回归的参数时,系数矩阵存在常数列,对应的模型被称为带有固定列的EIV模型,其函数模型和随机模型表达为[15]

    y-ey=A-EAξ=         A1-EA1ξ1+A2ξ2 (1)
    De=σ02Q (2)

    式中,yey分别是n×1维观测向量及其对应的随机误差向量;AEA分别是n×m的固定系数矩阵及其对应的误差矩阵;ξm×1待估参数向量;A1A2分别为观测值组成的矩阵和常数组成的矩阵;ξ1ξ2分别是与A1A2对应的m1维和m-m1维参数向量;D*是计算向量方差矩阵的算子;e=vecEA1ey是所有观测量组成的残差向量,其中vec*是矩阵按列向量化算子;σ02是单位权方差;Qe的协因数矩阵。

    混合总体最小二乘法(mixed least squares and total least squares,mixed LS-TLS)是求解带有固定列EIV模型的严密方法,令B=ξ1TIn-In,数值计算上等价于求解带有非线性约束的优化问题:

    min:  eTQ-1e    s.t.  y-Aξ+Be=0 (3)

    该优化问题可以转换为无约束的非线性优化问题[16]

    min:  (y-Aξ)TBQBT-1(y-Aξ) (4)

    该转换使得优化问题不需要服从约束,可以看作是最小瑞利商估计的拓展,统计上可以看作残差y-Aξ及其权阵BQBT-1的二次型运算。如果观测值是不相关,即Q为对角矩阵,式(4)可以用分量求和的形式表示为:

    min:  i=1nyi-Aiξ2Qyi+ξ1TQAi1ξ1 (5)

    式中,Ai为矩阵A的第i行元素;yiQyi分别为向量y的第i个分量及其协因数;Ai1QAi1分别为矩阵A1的第i行元素及其协因数矩阵。mixed LS-TLS的准则是最小化所有数据点的残差平方和,所以该方法极其容易被粗差污染,即使单个粗差也可能使得估计崩溃。

    求和运算不能抵抗粗差的干扰,可以使用其他数学运算取代。文献[12]提出了两种在GM模型中的稳健估计方法,分别是LMS估计和LTS估计。文献[13-14]将这两种方法拓展到EIV模型,但仍然存在一些不足。在此基础上,针对不等精度的带有固定列EIV模型,提出WTLMS估计和WTLTS估计这两种高崩溃污染率估计算法,讨论其估计特性和崩溃污染率,并给出两种算法的求解步骤。

    用中位数运算代替求和运算,WTLMS估计的准则为:

    min:medi=1nyi-Aiξ2Qyi+ξ1TQAi1ξ1 (6)

    式中,medi=1n*表示取中位数操作。需要解释的是,协因数矩阵Q不局限于是对角矩阵,可以推广到同一观测方程中的随机量是相关的情况,即QAi1yi0,对应式(6)的分母为Qyi+ξ1TQAi1ξ1+2ξ1TQAi1yi,为了方便表达,依旧将Q视为对角矩阵。与文献[13]中Q=I的情况进行比较,本文算法的随机模型更具通用性。

    将所有加权残差平方ri2=yi-Aiξ2Qyi+ξ1TQAi1ξ1进行升序排列,得到WTLTS估计的准则为:

    min: i=1hri2 (7)

    式中,h为截断参数;r12<r22<<rn2。根据粗差比例不能超过50%的假设,需要满足h>n/2。式(7)表示算法抛弃残差较大的n-h个观测值,在一个不含粗差的子集中进行参数估计,从而消除粗差的影响。与文献[14]比较,WTLTS的协因数矩阵不受到特定结构的限制。

    WTLMS估计满足仿射等变性、尺度等变性。令C为任意m1×m1可逆矩阵,c为任意常数,式(6)的解ξ^A,y满足如下关系:

    1)仿射等变性。

    ξ^(A1C,A2,y)=C-1ξ^(A1,A2,y) (8)

    2)尺度等变性。

    ξ^(A,cy)=cξ^(A,y) (9)

    证明如下:

    medi=1nyi-Ai1CC-1ξ1-Ai2ξ22Qyi+C-1ξ1TQAi1CC-1ξ1=medi=1nyi-Aiξ2Qyi+CC-1ξ1TQAi1CC-1ξ1=medi=1nyi-Aiξ2Qyi+ξ1TQAi1ξ1 (10)
    medi=1ncyi-Ai(cξ)2Qcyi+(cξ1)TQAi1(cξ1)=medi=1ncyi-Ai(cξ)2c2Qyi+(cξ1)TQAi1(cξ1)=medi=1nyi-Aiξ2Qyi+ξ1TQAi1ξ1 (11)

    式中,QAi1CQcyi分别为Ai1C的协因数矩阵和cyi的协因数。等变性是参数估计中的重要性质[12],仿射等变性展示对A1进行线性变换如何影响WTLMS的估值,尺度等变性意味着WTLMS估值独立于y的单位。将式(10)~(11)的medi=1n算子更换为i=1h算子,可证明WTLTS估计也具有上述两个性质。

    崩溃污染率表示一种估计方法能承受的最大粗差比例,是衡量算法稳健性的重要指标。在A的任意m×m子矩阵可逆的情况下,那么WTLMS估计和WTLTS估计有限样本下的崩溃污染率γ为:

    γ=((n-m)/2+1)/n (12)

    式中,符号表示向下取整。文献[12]给出了LMS估计和LTS估计的崩溃污染率的详细证明,本文两种算法的崩溃污染率与LMS和LTS算法是一致的。通过启发式的方法证明,当仅来自同一观测方程的观测值存在相关性时,无论是在系数矩阵A中或者观测向量y中的粗差,都是使对应的观测方程偏离实际的模型,故系数矩阵的粗差可以转换为对应观测向量中的粗差,本文算法可以达到式(12)的最大崩溃污染率。

    将残差进行升序排列,使得r12r22rn2,令h=(n-m)/2+1,WTLMS和WTLTS估计分别最小化rh2i=1hri2,这是满足等变性的估计方法所能达到的最大崩溃污染率。准确地说,WTLMS估计是一种特殊的分位数估计方法。WTLTS估计的h可以根据粗差比例ω设置为h=nω,更大的h降低了崩溃污染率,但能够增加估计的有效性。一般情况下,当n远大于m时,根据式(12)可知本文两种估计方法具有50%的渐进崩溃污染率。

    两种估计方法的几何意义十分明确,WTLMS估计表示数据点到超平面的加权平方残差中位数最小,WTLTS估计最小化数据点到超平面的前h个较小的加权平方残差和。然而对应的目标函数不可导,基于梯度的优化算法并不适合求解两种算法。

    借鉴PROGRESS程序[12]求解LMS估计的流程,将重采样算法结合截距校正算法[17]和空间精化算法[18]应用到EIV模型中,WTLMS估计通过内外两重循环进行求解,具体步骤如下:

    1) 计算h=(n-m)/2+1,令i=0j=0记录外循环和内循环迭代次数,内外循环最大迭代次数记为nrNr

    2) 开始外循环:(1)i=i+1并且i<Nr;(2)从观测方程y=Aξ中随机选择m个子集计算其精确解ξ^0;(3)进行空间精化,令ξ^1,ξ^2,,ξ^nr是端点为ξ^0ξ˜的直线上的nr个解,其中ξ˜是当前的最优解。

    3) 开始内循环:(1)j=0并且j<nr;(2)计算ξ^j对应的所有数据点加权残差平方,并校正截距,重新计算残差的加权平方;(3)将加权残差平方按升序排列,设置mj=rhj2;(4)若mj<m˜,ξ˜=ξ^j,m˜=mj,其中m˜是当前最佳目标函数值。

    理论上应该遍历所有的Cnm子集,对于大量数据可以固定重采样次数,如Nr=1 000,但不建议增加观测方程数量,这样会增加计算负担,降低其实用性。

    一种有效求解WTLTS估计的方法是穷举法,一共需要进行Cnh次,在观测值数量较小的情况下可以使用该方法,大量观测值将会使算法计算量快速增加,失去实用性。借鉴可行集算法[17],其核心是通过交换子集中的观测值使得目标函数下降,文献[19]分为两步将该算法应用于最小协方差行列式(minimum covariance determinant,MCD)估计,本文将该方法应用于线性回归EIV模型中。

    首先需要证明通过交换子集元素能够降低目标函数值。在n个观测方程中,首先任意选取样本容量为h的子集M1,使用mixed LS-TLS方法在子集M1中计算出估计结果ξ^M1及其加权残差平方和f1=i=1hr1i2,其中r1i2=(yi-Aiξ^M1)2/(Qyi+ξ^M1TQAi1ξ^M1)。将ξ^M1的结果代入所有观测方程中,得到n个加权残差平方,选择其中h个残差平方最小的观测方程组成子集M2,在子集M2中使用mixed LS-TLS计算得到ξ^M2及其加权残差平方和f2=i=1hr2i2,则下列不等式成立:

    f1f2 (13)

    因为M2中的元素在n个残差中选择最小的hr1i2,故i=1hr1i2iM1i=1hr1i2iM2。集合M2中的i=1hr2i2是最小的h个残差平方和,得到:

    f1=i=1hr1i2iM1i=1hr1i2iM2i=1hr2i2iM2=f2 (14)

    式(13)证明通过交换子集中元素可以降低目标函数值,以此设计迭代求解方法。但是WTLTS估计的目标函数是非凸的,估计结果依赖于迭代初值。可以使用LTS估计等稳健方法的结果作为迭代初值或者设置多个起算点进行计算,选择目标函数值最小的结果作为输出。WTLTS估计的解算步骤为:

    1)通过LTS估计得到一个容量为h子集M1

    2)在M1计算ξ^M1f1=i=1hr1i2。选取其中残差较小的h个观测值,得到集合M2,在M2中计算ξ^M2f2=i=1hr2i2

    3)若f1=f2,输出结果ξ^=ξ^M2;否则,将子集M2赋给M1,重新进行步骤2)的解算。

    对于WTLMS估计而言,根据单位权中误差和残差中位数的关系,得到:

    σ^0=1.482 6medi=1nri2 (15)

    在观测值数量较小的情况下,还需要等式右边乘以一个系数进行改正,系数和观测值数量关系参考文献[20]。

    对于WTLTS估计,其相当于在子集中进行mixed LS-TLS估计,使用总体最小二乘的精度评定公式,单位权中误差的估计值为:

    σ^0=1h-mi=1hri2 (16)

    设直线方程为y=-x+50<x<5,即斜率和截距的真值分别为a˜1=-1a˜2=5。采用均匀分布函数产生20个升序排列的x值,计算对应的y值,得到坐标的真值。按照文献[21]的方法加入期望为0、标准差为0.04的随机误差,同一点x分量和y分量的相关系数ρxy为0.6,通过σxy=ρxyσxσy计算坐标的协方差,得到含随机误差的观测值。在前10个点中随机选择5个,在x分量和y分量上加入绝对值在5~20倍标准差之间的粗差,形成多维粗差,图1为粗差加入前后的误差方案示意图。因为粗差在直线的单侧密集分布,最容易使估计方法崩溃[22],所以本文设置粗差点均在直线上方模拟该最坏情况。

    图  1  两种误差方案示意图
    Figure  1.  Diagram of Two Error Schemes

    设置收敛阈值为1×10-10,分别在粗差加入前后,采用以下6种估计方法估计直线参数:

    方法1:mixed LS-TLS。

    方法2:以mixed LS-TLS结果为初值的RWTLS[7]

    方法3:WTLMS,对应§2.4.1。

    方法4:WTLTS,对应§2.4.2,其中设置h=11以实现最大的崩溃污染率。

    方法5:以WTLMS结果为初值的RWTLS。

    方法6:以WTLTS结果为初值的RWTLS。

    方法5和方法6可以视为EIV模型下的M估计[23],其要求M估计的待估参数和单位权中误差初值具有较高的可靠性。模拟N=100组实验,用a^iji=1,2表示参数a^i的第j次估计结果。表1表2列出不同方案单位权中误差σ^0、斜率和截距的统计指标,包括均值a¯i、标准差σai、均方根误差δai,计算公式为:

    a¯i=1Nj=1Na^ij (17)
    σai=1N-1j=1Na^ij-a¯i2 (18)
    δai=1Nj=1Na^ij-a˜i2 (19)
    表  1  加入粗差前参数估计值的统计结果
    Table  1.  Statistics of Estimated Parameters Without Outliers
    方法a¯1σa1δa1εa1/%a¯2σa2δa2εa2/%σ̂0
    1-0.999 580.008 120.008 131004.999 530.023 280.023 281000.040 15
    2-0.999 140.008 820.008 8784.04.999 090.026 680.026 6976.10.039 88
    3-1.001 120.018 110.018 1520.14.997 660.050 200.050 2521.50.038 97
    4-1.001 380.015 540.015 5827.25.006 150.045 040.045 0826.70.039 06
    5-0.999 320.009 320.009 3476.14.999 450.028 360.028 3767.40.040 36
    6-0.999 090.008 900.008 9482.74.999 110.026 660.026 6776.30.039 01
    下载: 导出CSV 
    | 显示表格
    表  2  加入粗差后参数估计值的统计结果
    Table  2.  Statistics of Estimated Parameters with Outliers
    方法a¯1σa1δa1a¯2σa2δa2σ̂0
    1-1.108 740.035 780.114 485.442 080.125 930.459 670.190 42
    2-1.042 090.061 010.074 125.164 680.237 220.288 780.056 53
    3-1.000 380.020 750.020 775.001 730.057 730.057 760.041 22
    4-1.001 650.017 680.017 745.006 950.048 700.048 730.040 63
    5-1.001 670.013 460.013 565.006 970.046 040.046 570.039 36
    6-1.002 780.014 280.014 555.010 790.050 090.051 240.041 69
    下载: 导出CSV 
    | 显示表格

    在只含正态随机误差的情况下,mixed LS-TLS是目前最优的估计方法。以该方法作为对比,定义算法的数值有效性[24]

    εai=σai02/σai2 (20)

    式中,σai02σai2分别为mixed LS-TLS估计方法和其他估计方法得到的方差。有效性衡量其他估计方法与最优的估计方法之间的一致性,不同

    算法的效率如表1所示。

    表1得到如下结论:(1)当观测值只含随机模型时,mixed LS-TLS估计在6种方法中获得最

    优的估计结果;(2)其他方法的参数均值和单位权中误差与mixed LS-TLS估计差异并不显著,但均方根误差和标准差略有增加。它们的标准差几乎等于均方根误差,表明估计偏差小到可以忽略不计;(3)对比各种方法的有效性,WTLMS和WTLTS估计的数值有效性分别约为20%和25%,这是两种算法在子集中采用排序方法求解参数估计值,没有使用全部的观测信息。方法5和6的有效性均大于65%,所以本文方法更适合提供初值,结合M估计能够显著提高算法有效性。

    表2进行分析可得:(1)当观测值中存在粗差时,mixed LS-TLS得到的参数估值严重失真,表明mixed LS-TLS不具备稳健性;(2)RWTLS通过对可疑粗差进行降权,一定程度上改善了mixed LS-TLS的表现,但可靠性较差,这是因为M估计迭代结果依赖于参数初值,而由于粗差影响,mixed LS-TLS的参数初值与真值偏差较大;(3)WTLMS和WTLTS的估值和真值差别很小,它们的标准差和均方根误差与表1相比变化不大,表明本文算法的崩溃污染率优于RWTLS估计。方法5和方法6的迭代初值更加准确,相较于方法2,估值更加接近于真值;(4)总体而言,受到粗差的影响,各种方法的标准差和均方根误差均有所增加。综上所述,RWTLS估计在25%污染率的数据中,无法得到可靠的估值,本文给出的两种算法能够得到可靠的估值,同时,结合M估计可以进一步提高估计有效性。

    为了验证本文算法具有高崩溃污染率,在上述实验的基础上,加入不同数量的粗差,污染率从5%增加到45%。重复实验100次对比稳健方法2~4的表现,得到结果如图2所示。

    图  2  不同污染率下算法的统计指标
    Figure  2.  Statistics of Estimated Parameters Under Different Contamination Rates

    图2可知:(1)在均值指标上,当污染率大于25%时,RWTLS估计得到的参数均值偏差十分明显,而WTLMS和WTLTS估计的参数均值没有受到显著影响;(2)RWTLS在污染较小的情况下,参数的标准差比本文方法小,但是当污染率大于20%时,标准差迅速变大,同时出现明显偏差。WTLTS和WLTMS的标准差一直保持稳定,其中后者的标准差更小,但总体而言两者差异并不明显;(3)本文给出的两种算法的均方根误差随着污染率增加出现小幅度上升,并没有显著的偏差。综上所述,RWTLS在高污染率的数据中不能得到可靠的参数估值,本文算法具有接近50%的崩溃污染率。

    上述实验中的观测点具有相同的随机模型,以下通过真实的点云数据进行平面拟合,探究不同精度的观测值下不同算法的表现。选择来自WHU-TLS数据集[25]中校园场景的点云数据,如图3所示。采用RIEGL VZ-400激光扫描仪,其

    图  3  校园场景扫描图
    Figure  3.  Scanning Results of the Campus

    测程为600 m,扫描范围100×360。截选其中一部分数据(图3红框所示,总计3 561个点)进行平面拟合,因为树木遮挡和其他原因,数据中含有大约20%的粗差。对该数据使用方法1~4进行平面拟合,其中观测值采用入射角定权法[26],结果如图4所示。因为点云数据量大,WTLMS估计最大重采样次数为Nr=1 000。

    图  4  4种方法拟合结果
    Figure  4.  Fitted Results by 4 Methods

    图4可知:(1)从平面拟合结果上看,mixed LS-TLS受到粗差的影响,估计结果严重失真,RWTLS虽然具备一定的稳健性,但在实验中也出现明显的偏差,WTLMS和WTLTS得到理想的拟合平面,表明本文算法的崩溃污染率相较于方法1和方法2更高;(2)计算4种方法的单位权中误差,分别为0.789 6 m、0.517 3 m、0.006 1 m和0.005 3 m,可以看出方法1和方法2的拟合精度较差。将加权残差大于3倍中误差的点标记为红色,可以看出方法1和方法2并没有区别出正常观测值和粗差,而本文方法除了成功

    将所有的树叶数据识别粗差,还识别出墙面上一些粗差,验证了本文算法的可靠性。综上所述,本文算法在不等权的点云数据中也能得到可靠的平面拟合结果。

    M估计的优势在于其较高的计算效率和简单的方法原理,然而受多维粗差、杠杆观测权等因素影响,其崩溃污染率并不高,因此本文提出两种适用于线性回归加权EIV模型的具有高崩溃污染率的估计算法,即WTLMS估计和WTLTS估计。本文分析两种算法的等变性和验证它们具有50%的渐进崩溃污染率。因为本文算法的目标函数不可导,求解复杂程度相对M估计要高。通过实验验证两种算法具有良好的稳健性,可以以此作为初值结合M估计进一步提高算法的有效性。如何提高两种算法的计算效率和有效性成为下一步研究的方向。

    http://ch.whu.edu.cn/cn/article/doi/10.13203/j.whugis20220441
  • 图  1   两种误差方案示意图

    Figure  1.   Diagram of Two Error Schemes

    图  2   不同污染率下算法的统计指标

    Figure  2.   Statistics of Estimated Parameters Under Different Contamination Rates

    图  3   校园场景扫描图

    Figure  3.   Scanning Results of the Campus

    图  4   4种方法拟合结果

    Figure  4.   Fitted Results by 4 Methods

    表  1   加入粗差前参数估计值的统计结果

    Table  1   Statistics of Estimated Parameters Without Outliers

    方法a¯1σa1δa1εa1/%a¯2σa2δa2εa2/%σ̂0
    1-0.999 580.008 120.008 131004.999 530.023 280.023 281000.040 15
    2-0.999 140.008 820.008 8784.04.999 090.026 680.026 6976.10.039 88
    3-1.001 120.018 110.018 1520.14.997 660.050 200.050 2521.50.038 97
    4-1.001 380.015 540.015 5827.25.006 150.045 040.045 0826.70.039 06
    5-0.999 320.009 320.009 3476.14.999 450.028 360.028 3767.40.040 36
    6-0.999 090.008 900.008 9482.74.999 110.026 660.026 6776.30.039 01
    下载: 导出CSV

    表  2   加入粗差后参数估计值的统计结果

    Table  2   Statistics of Estimated Parameters with Outliers

    方法a¯1σa1δa1a¯2σa2δa2σ̂0
    1-1.108 740.035 780.114 485.442 080.125 930.459 670.190 42
    2-1.042 090.061 010.074 125.164 680.237 220.288 780.056 53
    3-1.000 380.020 750.020 775.001 730.057 730.057 760.041 22
    4-1.001 650.017 680.017 745.006 950.048 700.048 730.040 63
    5-1.001 670.013 460.013 565.006 970.046 040.046 570.039 36
    6-1.002 780.014 280.014 555.010 790.050 090.051 240.041 69
    下载: 导出CSV
  • [1] 刘经南, 曾文宪, 徐培亮. 整体最小二乘估计的研究进展[J]. 武汉大学学报(信息科学版), 2013, 38(5): 505-512.

    LIU Jingnan, ZENG Wenxian, XU Peiliang. Overview of Total Least Squares Methods[J].Geomatics and Information Science of Wuhan University, 2013, 38(5): 505-512.

    [2] 鲁铁定, 陶本藻, 周世健. 基于整体最小二乘法的线性回归建模和解法[J]. 武汉大学学报(信息科学版), 2008, 33(5): 504-507.

    LU Tieding,TAO Benzao,ZHOU Shijian.Modeling and Algorithm of Linear Regression Based on Total Least Squares[J].Geomatics and Information Scien‑ce of Wuhan University, 2008, 33(5): 504-507.

    [3]

    WANG B, YU J, CHEN Y, et al. Efficient and Robust Solution to Universal Symmetric Transformation for 3-D Point Sets[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1-15.

    [4] 官云兰, 刘绍堂, 周世健, 等. 基于整体最小二乘的稳健点云数据平面拟合[J]. 大地测量与地球动力学, 2011, 31(5): 80-83.

    GUAN Yunlan, LIU Shaotang, ZHOU Shijian, et al. Robust Plane Fitting of Point Clouds Based on TLS[J]. Journal of Geodesy and Geodynamics, 2011, 31(5): 80-83.

    [5]

    AMIRI-SIMKOOEI A R, JAZAERI S. Data-Snooping Procedure Applied to Errors-in-Variables Models[J]. Studia Geophysica et Geodaetica, 2013, 57(3): 426-441.

    [6]

    WANG B, LI J C, LIU C. A Robust Weighted Total Least Squares Algorithm and Its Geodetic Applications[J]. Studia Geophysica et Geodaetica, 2016, 60(2): 177-194.

    [7] 龚循强, 李志林. 稳健加权总体最小二乘法[J]. 测绘学报, 2014, 43(9): 888-894.

    GONG Xunqiang, LI Zhilin. A Robust Weighted Total Least Squares Method[J]. Acta Geodaetica et Cartographica Sinica, 2014, 43(9): 888-894.

    [8] 龚循强, 李志林. 一种利用IGGII方案的稳健混合总体最小二乘方法[J]. 武汉大学学报(信息科学版), 2014, 39(4): 462-466.

    GONG Xunqiang, LI Zhilin. A Robust Mixed LS-TLS Based on IGGII Scheme[J]. Geomatics and Information Science of Wuhan University, 2014, 39(4): 462-466.

    [9] 刘超, 王彬, 赵兴旺, 等. 三维坐标转换的高斯-赫尔默特模型及其抗差解法[J]. 武汉大学学报(信息科学版), 2018, 43(9): 1320-1327.

    LIU Chao, WANG Bin, ZHAO Xingwang, et al. Three-Dimensional Coordinate Transformation Model and Its Robust Estimation Method Under Gauss-Helmert Model[J]. Geomatics and Information Science of Wuhan University, 2018, 43(9): 1320-1327.

    [10] 李思达, 柳林涛, 刘志平, 等. 多变量稳健总体最小二乘平差方法[J]. 武汉大学学报(信息科学版), 2019, 44(8): 1241-1248.

    LI Sida, LIU Lintao, LIU Zhiping, et al. Robust Total Least Squares Method for Multivariable EIV Model[J]. Geomatics and Information Science of Wuhan University, 2019, 44(8): 1241-1248.

    [11] 陶叶青, 高井祥, 姚一飞. 基于中位数法的抗差总体最小二乘估计[J]. 测绘学报, 2016, 45(3): 297-301.

    TAO Yeqing, GAO Jingxiang, YAO Yifei. Solution for Robust Total Least Squares Estimation Based on Median Method[J]. Acta Geodaetica et Cartographica Sinica, 2016, 45(3): 297-301.

    [12]

    ROUSSEEUW P J, LEROY A M. Robust Regression and Outlier Detection[M]. New Work: Wiley, 1987.

    [13]

    FANG X, ZENG W X, ZHOU Y J, et al. On the Total Least Median of Squares Adjustment for the Pattern Recognition in Point Clouds[J]. Measurement, 2020, 160: 107794.

    [14]

    LÜ Z P,SUI L F.The BAB Algorithm for Computing the Total Least Trimmed Squares Estimator[J]. Journal of Geodesy, 2020, 94(12): 110.

    [15]

    ZHOU Y, FANG X. A Mixed Weighted Least Squares and Weighted Total Least Squares Adjustment Method and Its Geodetic Applications[J]. Survey Review, 2016, 48(351): 421-429.

    [16]

    FANG X. Weighted Total Least Squares: Necessary and Sufficient Conditions, Fixed and Random Parameters[J].Journal of Geodesy,2013,87: 733-749.

    [17]

    HAWKINS D M. The Feasible Set Algorithm for Least Median of Squares Regression[J]. Computational Statistics & Data Analysis, 1993, 16(1): 81-101.

    [18]

    RUPPERT D. Computing S Estimators for Regression and Multivariate Location/Dispersion[J]. Journal of Computational and Graphical Statistics,1992,1(3): 253.

    [19]

    ROUSSEEUW P J, VAN DRIESSEN K. A Fast Algorithm for the Minimum Covariance Determinant Estimator[J]. Technometrics, 1999, 41(3): 212.

    [20]

    YANG L,SHEN Y Z,LI B F.M-Estimation Using Unbiased Median Variance Estimate[J]. Journal of Geodesy, 2019, 93(6): 911-925.

    [21] 刘春阳, 王坚, 王彬, 等. 基于中位参数法相关观测的抗差加权整体最小二乘算法[J]. 武汉大学学报(信息科学版), 2019, 44(3): 378-384.

    LIU Chunyang, WANG Jian, WANG Bin, et al. Robust Weight Total Least Squares Algorithm of Correlated Observation Based on Median Parameter Method[J]. Geomatics and Information Science of Wuhan University, 2019, 44(3): 378-384.

    [22]

    XU P L. Sign-Constrained Robust Least Squares, Subjective Breakdown Point and the Effect of Weights of Observations on Robustness[J]. Journal of Geodesy, 2005, 79(1): 146-159.

    [23]

    YOHAI V J. High Breakdown-Point and High Efficiency Robust Estimates for Regression[J]. The Annals of Statistics, 1987, 15(2): 642-656.

    [24]

    MARONNA R A, MARTIN R D, YOHAI V J. Robust Statistics[M]. New Work: Wiley, 2006.

    [25]

    DONG Z, YANG B S, LIANG F X, et al. Hierarchical Registration of Unordered TLS Point Clouds Based on Binary Shape Context Descriptor[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2018, 144: 61-79.

    [26] 苍桂华, 李明峰, 岳建平. 以入射角定权的点云数据加权总体最小二乘平面拟合研究[J].大地测量与地球动力学,2014,34(3): 95-98.

    CANG Guihua, LI Mingfeng, YUE Jianping. Study on Point Clouds Plane Fitting with Weighted Total Least Squares Based on Incidence Angle Weighting[J].Journal of Geodesy and Geodynamics, 2014, 34(3): 95-98.

图(4)  /  表(2)
计量
  • 文章访问数:  435
  • HTML全文浏览量:  28
  • PDF下载量:  51
  • 被引次数: 0
出版历程
  • 收稿日期:  2023-01-04
  • 网络出版日期:  2023-06-06
  • 刊出日期:  2025-01-04

目录

/

返回文章
返回