-
在测量数据处理中,通常假设观测误差服从正态分布,利用最小二乘法求解待估参数的估计值。随着观测手段与观测仪器的进步,观测值日趋多样化,观测误差的分布有时并不服从正态分布[1],如地图数字化误差一般就是服从p=1.6的P范分布[2],GPS观测误差服从p=1.4的P范分布[3]等。当观测误差不服从正态分布时,少数几个含有较大误差或粗差的观测值就可能使最小二乘解崩溃[1, 4]。文献[1]认为观测值服从P范分布[1, 3, 5],利用P范最小估计准则能较好地解决这一问题;李博峰[6]、刘正才[7]、孙海燕[1, 8]等分别研究了P范分布的多种变形形式,得到了一些有用的结果。
利用P范最小估计准则进行平差时需要事先知晓形状参数p的值。但实际情况则是给定一组观测值,并不知道p取何值最合适。在进行数据处理时,应该合理选择p,使得观测值的误差分布更接近于实际情况,从而提高参数估计的精度。文献[9]指出,当所选择的p与实际值p0不符时,参数估计的效率相差较大。例如,当误差实际分布p0=2,选定p=1进行估计时,估计效率只能达到63.7%。当实际分布p0=1,而选定的p=2进行估计时,估计效率却只能达到50%。文献[5]指出,p的取值只有0.1个数量级的变化时,对数据处理的精度所产生的影响却是指数级的。因此探讨参数p的合理快速取值方法十分必要[10-12]。
本文从一元P范分布参数估计的快速性、稳定性和高精度性出发,利用矩值法分别给出了基于二/四阶矩估计法与对数期望矩估计法的P范分布的形状参数p以及方差σ的合理计算公式,利用该公式可以直接求解得到观测值的p值,免去了繁琐的重复迭代过程,能够快速地求解各参数。
-
假设观测值误差Δ服从一元P范分布,概率密度函数为[1]:
(1) 式中,
为伽玛函数;σ表示观测值标准差;p表示形状参数。设x1、 x2、 …、 xn为服从P范分布的一个简单样本值。其m阶矩如下:(2) 由于偶数阶中心矩的大小与图形分布的峰度系数有关,峰度系数可以表征观测数据概率密度函数曲线在平均值处的峰值高低。二阶中心矩就是观测值的方差,它在一定程度上可以反映分布的峰度系数,但方差相同的数据却可能有不同的峰度系数。此时可以利用四阶中心矩来反映分布的尖峭程度。因此,将二阶与四阶矩结合起来研究形状参数的合理取值,具有一定的理论意义。
由式 (2) 定义二/四阶矩估计如下:
(3) 对式 (3) 以样本矩代替总体矩,则有:
(4) 由式 (2) 知,当m=1时,可以得到标准差σ的估计公式:
(5) 因此,由式 (4)、式 (5),利用观测值就可以得到参数
和 的估计值。由于式 (4) 为非线性方程,一般采用迭代的方法进行求解。合理选取迭代初始值之后,能快速地得到最优估值。为了更快捷地得到
值,在此不妨采用曲线拟合的方法简化H2(p)。通过观察函数H2(p) 的图形,发现其函数图像与指数函数图像较为相似。因此,设拟合的指数函数模型为y=a+becp, 利用MATLAB的cftool工具箱自定义该模型进行拟合,得到参数a、 b、 c的估计值分别为 ,则H2(p) 的近似函数为:(6) 由式 (6) 得到参数p的估计公式:
(7) -
式 (6) 是通过拟合得到的估计公式,为了进一步提高估计精度,引入对数期望矩估计法。由于基于对数的估计方法进行快速计算时,对于降低数据计算的复杂性具有一定的优势,因此定义一阶对数绝对矩为:
(8) 将绝对矩与对数绝对矩结合起来得到:
(9) 令
, 则 ,对式 (8)、式 (9) 进行计算,得:(10) (11) 由式 (11),得对数期望法求解p值的表达式为:
(12) 式中,φ(·) 是普西函数,用样本矩代替总体矩,式 (12) 变为:
(13) 式 (13) 即为对数期望矩估计法求解P范分布参数估计值的表达式,该式避免了分数运算,形式较二/四阶矩估计法更为简洁。采用数值方法求解式 (13) 即能快速得到P范分布的参数估计值,进一步得到方差的估计值
。在数据处理过程中,形状参数p一直都是最难确定的值。在之前的计算方法中[1, 4],需采用迭代方法得到关于p的重复迭代式,然后通过多步迭代直到满足迭代条件时确定p值,因此其计算量较大,计算过程比较繁琐且耗时较长。另外,迭代初值的选取也在很大程度上影响最终的迭代结果以及迭代的速度。通过二/四阶矩估计法和对数期望矩估计法,能将参数p的求解过程简单化,避免了繁琐的迭代过程。
-
本文利用两组来自不同母体的观测数据,讨论利用§1与§2两种方法估计参数p的估计效果,一组数据来自标准正态分布的子样 (p=2, σ=1),另一组来自标准拉普拉斯分布的子样 (p=1, σ=1),样本总数均为200。由式 (7) 和式 (13),得到不同样本情况下的参数估值。
-
当观测子样服从拉普拉斯分布时 (形状参数p=1),分别利用极大似然估计法、二/四阶矩估计法和对数期望矩估计法推导的公式进行计算得到样本量由小至大时的参数估值,计算结果见表 1。
表 1 p=1时的参数平差结果对比情况
Table 1. Comparison Situation of Parameter-estimation Value when p=1
n 极大似然平差法 二/四阶矩估计法 对数期望矩估计法 10 3.457 3 0.723 5 1.656 5 0.539 4 1.618 5 0.541 2 20 2.398 0 0.511 8 1.400 2 0.697 8 1.517 5 0.621 0 30 1.393 0 0.910 2 1.217 0 1.039 4 1.105 4 1.060 9 40 0.778 9 1.037 1 1.177 0 0.850 8 0.838 6 0.942 3 50 1.297 3 0.898 9 1.128 3 0.877 5 1.122 8 0.926 5 60 0.798 1 0.880 3 1.135 2 0.775 4 1.132 1 0.792 1 70 0.891 8 0.827 5 1.131 8 0.862 3 0.884 8 0.837 6 80 0.936 6 0.908 9 0.966 4 1.081 0 0.939 6 1.089 0 90 0.969 6 0.967 9 1.030 5 0.915 2 0.992 1 0.920 0 100 0.953 2 1.088 7 1.038 7 1.071 0 0.947 6 1.096 1 110 0.962 1 1.053 9 0.987 5 1.043 9 1.010 9 1.037 9 120 0.973 9 1.015 0 0.982 5 0.995 3 0.975 3 0.982 4 130 0.978 0 1.021 3 0.981 1 1.015 7 1.036 4 1.002 0 140 1.028 4 0.968 3 0.972 0 0.982 0 0.975 5 0.994 9 150 1.023 6 0.971 0 0.972 7 0.978 8 0.995 3 0.973 1 160 1.030 4 0.992 1 1.023 6 0.986 0 0.989 4 0.994 4 170 1.028 7 0.974 1 1.021 6 0.975 2 1.011 3 0.977 6 180 1.029 3 0.970 2 1.038 6 0.963 4 0.974 8 0.989 6 190 1.023 7 0.953 2 1.013 7 0.955 1 1.014 8 0.954 8 200 0.983 2 1.015 4 1.011 9 0.981 3 0.970 5 0.967 6 用估计量的相对偏差
来表示参数估计的精度,3种方法的估计量的相对偏差曲线如图 1所示。从图 1可以看出,当样本数小于60时,极大似然估计法精度最低,其余两种方法精度相差不大,当样本数大于60时,三者精度相差不大。在测绘数据处理过程中得到的数据一般为小样本数据,因此,应用本文方法较好。由文献[6]可以计算出样本数与参数估计效率的关系,如图 2所示。
图 2 p=1时3种方法的估计量的估计效率曲线
Figure 2. Estimation Efficiency Curve of Estimations by Three Methods when p=1
从图 2可以看出,当样本数为30时,估计效率就达到1,优于传统的极大似然估计方法。
-
为了进一步验证本文方法的普适性,采用服从正态分布 (p=2) 的样本,利用上述3种方法验证3种方法的估计效果。参数估值对比情况见表 2。
表 2 p=2时的参数估值对比情况
Table 2. Comparison Situation of Parameter-estimation Value when p=2
n 极大似然平差法 二/四阶矩估计法 对数期望矩估计法 10 3.493 8 1.314 8 3.119 9 1.145 7 1.511 4 1.128 9 20 3.016 6 0.730 3 2.448 1 0.734 9 1.770 8 0.733 6 30 2.738 7 0.801 2 1.834 6 0.889 7 1.890 4 0.899 9 40 1.749 0 0.969 2 1.835 2 0.971 4 1.904 0 0.967 0 50 1.876 1 0.784 8 1.967 0 0.806 1 1.907 4 0.845 4 60 2.213 0 1.188 3 2.081 0 1.196 4 1.912 1 1.211 7 70 1.966 7 0.999 2 1.966 2 0.997 8 1.934 1 1.013 7 80 2.084 0 1.042 9 2.059 2 1.060 6 1.958 3 1.066 6 90 1.888 2 1.092 8 1.931 9 1.083 8 1.926 5 1.094 2 100 1.834 6 0.976 7 1.947 1 0.982 8 1.940 3 0.984 6 110 2.045 6 0.935 2 1.933 7 0.961 7 2.067 8 0.948 3 120 2.045 1 0.952 4 1.965 0 0.969 3 2.048 0 0.960 6 130 2.025 8 1.011 3 2.015 8 1.002 9 1.958 8 1.046 2 140 1.976 4 1.000 3 2.005 3 0.995 9 1.962 8 1.007 1 150 2.036 9 1.047 4 1.971 0 1.058 9 1.950 2 1.062 2 160 1.976 9 1.035 4 1.960 7 1.059 2 1.976 3 1.035 8 170 2.026 5 1.000 6 1.971 2 1.009 0 1.961 2 1.025 6 180 1.963 2 1.028 9 1.977 3 1.034 5 2.027 6 1.031 6 190 1.981 5 1.032 3 2.013 6 1.029 9 1.974 3 1.051 7 200 1.976 4 1.021 8 2.020 2 1.019 5 1.972 5 1.044 0 -
从上述计算结果可以看出,无论观测数据服从何种分布,当观测子样较少 (小于30) 时,二/四阶矩估计法和对数期望矩估计法的估计值均偏离真实值,均优于极大似然平差法。随着参与平差的样本数的增加,通过这三种方法求得的P范分布形状参数与标准差的估计值均越来越接近于理论值,估值之间差别不大,且逐渐稳定,符合统计规律。在大样本量的情况下,对数期望矩估计法和二/四阶矩估计法与极大似然估计法估计效果相当。在小样本量的情况下,采用对数矩估计法和二/四阶矩估计法估计结果要要优于极大似然估计法。
从图 1~图 4可以看出,极大似然估计法的参数估计值的偏差的收敛速度最快,其次是二/四阶矩估计法、对数期望矩估计法,当样本量增大到一定程度时,收敛速度趋于稳定。相同样本下,对数期望矩估计法的估计效率最高。在估计的稳定性方面,样本量小时,二/四阶矩估计法与对数期望矩估计法的估计量明显优于极大似然估计法。通过多组模拟数据计算分析,对数期望矩估计法表现出更优的稳定性以及精确性。
因此,采用二/四阶矩估计法与对数期望矩估计法可以一定程度上提高参数估计的效率。
-
本文利用矩估计法对P范分布的参数进行估计,对如何利用二/四阶矩估计法与对数期望矩估计法合理求解形状参数p及方差σ的估计过程进行了详细的介绍。最后通过模拟数据,验证了二/四阶矩估计法与对数期望矩估计法的有效性、稳定性以及高精度性,为P范分布理论的扩展提供新的思路。
-
摘要: P范分布的参数估计值的精度对观测值的估计效率和数据处理的精度影响较大。从观测值分布的实际情况和简化运算出发,引入二/四阶矩估计方法估计P范分布的形状参数和方差,给出了二/四阶矩估计法的形状参数的近似计算式。为了进一步提高估计效率,引入对数期望矩估计法,将绝对矩与对数绝对矩相结合,导出了基于对数期望矩估计法的P范分布形状参数p、方差σ的合理估计表达式。最后利用两组模拟数据对该模型和计算方法的正确性进行了验证,并与传统极大似然估计方法进行了对比分析。结果表明,当样本数较少时,二/四阶矩估计法和对数期望矩估计法在收敛性、稳定性和准确性等方面优于极大似然估计法。Abstract: Parameter-estimation's accuracy of P-norm distribution have a great influence on estimate-efficiency of observations and the precision of data processing. In this paper, from the perspective of the actual situation of observations' distribution and simplifying operations, the two/four order moments estimation is introduced to estimate the shape parameter and variance, and the approximate formula of this method is given to calculate shape parameter. Another method based on logarithmic-expectation is introduced to further improve estimate efficiency, and the reasonable estimation expression of shape parameter p and variance σ is deduced by combining with the absolute and logarithmic-absolute moment. Finally, the simulated experiments are implemented to verify the correctness of the derived formula and proposed algorithm, and a comparison and analysis with the traditional maximum likelihood estimation method is made, it can be concluded that the two/four order moments estimation and logarithmic expectation moments estimation is better than maximum likelihood estimation in terms of convergence, stability and accuracy.
-
表 1 p=1时的参数平差结果对比情况
Table 1. Comparison Situation of Parameter-estimation Value when p=1
n 极大似然平差法 二/四阶矩估计法 对数期望矩估计法 10 3.457 3 0.723 5 1.656 5 0.539 4 1.618 5 0.541 2 20 2.398 0 0.511 8 1.400 2 0.697 8 1.517 5 0.621 0 30 1.393 0 0.910 2 1.217 0 1.039 4 1.105 4 1.060 9 40 0.778 9 1.037 1 1.177 0 0.850 8 0.838 6 0.942 3 50 1.297 3 0.898 9 1.128 3 0.877 5 1.122 8 0.926 5 60 0.798 1 0.880 3 1.135 2 0.775 4 1.132 1 0.792 1 70 0.891 8 0.827 5 1.131 8 0.862 3 0.884 8 0.837 6 80 0.936 6 0.908 9 0.966 4 1.081 0 0.939 6 1.089 0 90 0.969 6 0.967 9 1.030 5 0.915 2 0.992 1 0.920 0 100 0.953 2 1.088 7 1.038 7 1.071 0 0.947 6 1.096 1 110 0.962 1 1.053 9 0.987 5 1.043 9 1.010 9 1.037 9 120 0.973 9 1.015 0 0.982 5 0.995 3 0.975 3 0.982 4 130 0.978 0 1.021 3 0.981 1 1.015 7 1.036 4 1.002 0 140 1.028 4 0.968 3 0.972 0 0.982 0 0.975 5 0.994 9 150 1.023 6 0.971 0 0.972 7 0.978 8 0.995 3 0.973 1 160 1.030 4 0.992 1 1.023 6 0.986 0 0.989 4 0.994 4 170 1.028 7 0.974 1 1.021 6 0.975 2 1.011 3 0.977 6 180 1.029 3 0.970 2 1.038 6 0.963 4 0.974 8 0.989 6 190 1.023 7 0.953 2 1.013 7 0.955 1 1.014 8 0.954 8 200 0.983 2 1.015 4 1.011 9 0.981 3 0.970 5 0.967 6 表 2 p=2时的参数估值对比情况
Table 2. Comparison Situation of Parameter-estimation Value when p=2
n 极大似然平差法 二/四阶矩估计法 对数期望矩估计法 10 3.493 8 1.314 8 3.119 9 1.145 7 1.511 4 1.128 9 20 3.016 6 0.730 3 2.448 1 0.734 9 1.770 8 0.733 6 30 2.738 7 0.801 2 1.834 6 0.889 7 1.890 4 0.899 9 40 1.749 0 0.969 2 1.835 2 0.971 4 1.904 0 0.967 0 50 1.876 1 0.784 8 1.967 0 0.806 1 1.907 4 0.845 4 60 2.213 0 1.188 3 2.081 0 1.196 4 1.912 1 1.211 7 70 1.966 7 0.999 2 1.966 2 0.997 8 1.934 1 1.013 7 80 2.084 0 1.042 9 2.059 2 1.060 6 1.958 3 1.066 6 90 1.888 2 1.092 8 1.931 9 1.083 8 1.926 5 1.094 2 100 1.834 6 0.976 7 1.947 1 0.982 8 1.940 3 0.984 6 110 2.045 6 0.935 2 1.933 7 0.961 7 2.067 8 0.948 3 120 2.045 1 0.952 4 1.965 0 0.969 3 2.048 0 0.960 6 130 2.025 8 1.011 3 2.015 8 1.002 9 1.958 8 1.046 2 140 1.976 4 1.000 3 2.005 3 0.995 9 1.962 8 1.007 1 150 2.036 9 1.047 4 1.971 0 1.058 9 1.950 2 1.062 2 160 1.976 9 1.035 4 1.960 7 1.059 2 1.976 3 1.035 8 170 2.026 5 1.000 6 1.971 2 1.009 0 1.961 2 1.025 6 180 1.963 2 1.028 9 1.977 3 1.034 5 2.027 6 1.031 6 190 1.981 5 1.032 3 2.013 6 1.029 9 1.974 3 1.051 7 200 1.976 4 1.021 8 2.020 2 1.019 5 1.972 5 1.044 0 -
[1] 孙海燕. P范分布的近似表示[J].武汉大学学报·信息科学版,2001,26(3):222-225 http://ch.whu.edu.cn/CN/abstract/abstract5172.shtml Sun Haiyan.Approximate Representation of the P-norm Distribution[J].Geomatics and Information Science of Wuhan University,2001,26(3):222-225 http://ch.whu.edu.cn/CN/abstract/abstract5172.shtml [2] 刘大杰,史文中,童小华,等.GIS空间数据的精度分析与质量控制[M].上海:上海科学技术文献出版社,1999 Liu Dajie,Shi Wenzhong,Tong Xiaohua, et al. The Precision Analysis and Quality Control of GIS Spatial Data[M]. Shanghai:Shanghai Science and Technology Literature Press,1999 [3] 蓝悦明,贾媛.GPS观测值误差分布的研究[J].测绘通报,2008,4:12-13 http://www.cnki.com.cn/Article/CJFDTOTAL-CHTB200804007.htm Lan Yueming, Jia Yuan. Research on the Distribution of GPS Observation Error[J].Bulletin of Surveying and Mapping, 2008,4:12-13 http://www.cnki.com.cn/Article/CJFDTOTAL-CHTB200804007.htm [4] 潘雄,半参数模型的估计理论及其应用[D].武汉:武汉大学,2005 Pan Xiong.The Estimation Theory and Application of Semi-parametric Model[D].Wuhan:Wuhan University, 2005 [5] 李克行.基于LP估计的SLR数据处理与分析[D].上海:中国科学院上海天文台,2005 Li Kexing.SLR Data Processing and Analysis Based on LP Estimation[D]. Shanghai:Shanghai Astronomical Observatory, CAS,2005 [6] 李博峰,沈云中.P范分布混合整数模型极大似然估计[J].测绘学报,2010, 39 (2):141-145 http://www.cnki.com.cn/Article/CJFDTOTAL-CHXB201002009.htm Li Bofeng,Shen Yunzhong.Maximum Likelihood Estimation in Mixed Integer Linear Model with P-norm Distribution[J].Acta Geodaetica et Cartogra-phica Sinica,2010,39(2):141-145 http://www.cnki.com.cn/Article/CJFDTOTAL-CHXB201002009.htm [7] 刘正才, 朱建军, 王怀玉. P范分布密度函数的形式差异辨析与统一[J]. 武汉大学学报·信息科学版,2005,30(12):1052-1055 http://ch.whu.edu.cn/CN/abstract/abstract2336.shtml Liu Zhengcai,Zhu Jianjun,Wang Huaiyu. Formal Difference Analysis and Unification on P-norm Distribution Density Functions[J].Geomatics and Information Science of Wuhan University,2005,30 (12):1052-1055 http://ch.whu.edu.cn/CN/abstract/abstract2336.shtml [8] 孙海燕, 胡宏昌.P范分布及其抽样分布[J].应用概率统计,2009, 19(4):424 -428 http://www.cnki.com.cn/Article/CJFDTOTAL-YYGN200304011.htm Sun Haiyan,Hu Hongchang.P-norm Distribution and Its Sampling Distributions[J].Chinese Journal of Applied Probability and Statistics,2009, 19(4):424-428 http://www.cnki.com.cn/Article/CJFDTOTAL-YYGN200304011.htm [9] 潘雄,程少杰,赵春茹.一元P范分布的参数快速估计方法[J].武汉大学学报·信息科学版,2010, 35(2):189 -192 http://ch.whu.edu.cn/CN/abstract/abstract861.shtml Pan Xiong, Cheng Shaojie, Zhao Chunru.The Fast Paramrter Estimation Method of Monadic P-norm Distribution[J].Geomatics and Information Science of Wuhan University, 2010,35(2):189-192 http://ch.whu.edu.cn/CN/abstract/abstract861.shtml [10] 潘雄,付宗堂.一元有界P范分布的参数自适应估计[J].武汉大学学报·信息科学版,2007, 32(4):323-325 http://ch.whu.edu.cn/CN/abstract/abstract1861.shtml Pan Xiong,Fu Zongtang.Parameter Adaptive Estimation of Bounded P-norm Distribution[J].Geomatics and Information Science of Wuhan University,2007,32(4):323-325 http://ch.whu.edu.cn/CN/abstract/abstract1861.shtml [11] 胡文琳,王永良.基于zrlog(z)期望的K分布参数估计[J].电子与信息学报, 2008,30(1):203-205 Hu Wenlin,Wang Yongliang. Parameter Estimation for the K Distribution Based on zr log(z)Expectation[J].Journal of Electronics and Information Technology,2008, 30(1):203-205 [12] Armando J G. A Practical Procedure to Estimate the Shape Parameter in the Generalized Gaussian Distribution[J]. Technique Report,2003:101-138 [13] Blacknell D, Tough R J. Parameter Estimation for the K-Distribution Based on[zlog(z)] [J]. IEEE Proc-Radar, Sonar, Navigation, 2001, 148 (6):309-312 doi: 10.1049/ip-rsn:20010720 -