留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于用户信誉的自发地理信息可信度计算模型

赵肄江 周晓光 黄梦妮

赵肄江, 周晓光, 黄梦妮. 基于用户信誉的自发地理信息可信度计算模型[J]. 武汉大学学报 ● 信息科学版, 2016, 41(11): 1530-1536. doi: 10.13203/j.whugis20140726
引用本文: 赵肄江, 周晓光, 黄梦妮. 基于用户信誉的自发地理信息可信度计算模型[J]. 武汉大学学报 ● 信息科学版, 2016, 41(11): 1530-1536. doi: 10.13203/j.whugis20140726
ZHAO Yijiang, ZHOU Xiaoguang, HUANG Mengni. Computing Model of Volunteered Geographic Information Trustworthiness Based on User Reputation[J]. Geomatics and Information Science of Wuhan University, 2016, 41(11): 1530-1536. doi: 10.13203/j.whugis20140726
Citation: ZHAO Yijiang, ZHOU Xiaoguang, HUANG Mengni. Computing Model of Volunteered Geographic Information Trustworthiness Based on User Reputation[J]. Geomatics and Information Science of Wuhan University, 2016, 41(11): 1530-1536. doi: 10.13203/j.whugis20140726

基于用户信誉的自发地理信息可信度计算模型

doi: 10.13203/j.whugis20140726
基金项目: 

国家自然科学基金 41371366

“十二五”科技支撑计划项目 2012BAK12B01-2

详细信息
    作者简介:

    赵肄江, 博士生, 讲师, 主要从事众源地理信息的理论与方法研究。zyriver@gmail.com

    通讯作者: 周晓光, 博士, 教授。zxgcsu@foxmail.com
  • 中图分类号: P208;TP391

Computing Model of Volunteered Geographic Information Trustworthiness Based on User Reputation

Funds: 

The National Natural Science Foundation of China 41371366

the National Key Technology R & D Program of China 2012BAK12B01-2

More Information
    Author Bio:

    ZHAO Yijiang, PhD canclidate, lecturer, specializes in volunteered geographic information. E-mail:zyriver@gmail.com

    Corresponding author: ZHOU Xiaoguang, PhD, professor. E-mail:zxgcsu@foxmail.com
图(3) / 表(1)
计量
  • 文章访问数:  1041
  • HTML全文浏览量:  49
  • PDF下载量:  412
  • 被引次数: 0
出版历程
  • 收稿日期:  2015-07-16
  • 刊出日期:  2016-11-05

基于用户信誉的自发地理信息可信度计算模型

doi: 10.13203/j.whugis20140726
    基金项目:

    国家自然科学基金 41371366

    “十二五”科技支撑计划项目 2012BAK12B01-2

    作者简介:

    赵肄江, 博士生, 讲师, 主要从事众源地理信息的理论与方法研究。zyriver@gmail.com

    通讯作者: 周晓光, 博士, 教授。zxgcsu@foxmail.com
  • 中图分类号: P208;TP391

摘要: 自发地理信息(volunteered geographic information,VGI)由大众志愿者自发标报,导致其可信度具有诸多不确定性,但目前的研究工作很少考虑用户信誉对于VGI质量的影响,因此提出基于用户信誉的VGI可信度计算模型。首先提出了VGI的用户信誉模型,模型综合考虑了用户的初始信誉和评价信誉两方面,在此基础上综合地理要素的编辑过程和贡献者的信誉等因素发展了地理对象的可信度计算模型。最后采用OpenStreetMap的真实历史数据中的线对象进行实验,实验结果表明,线要素的质量和可信度值呈正相关关系。本文从可信度的角度来评价自发地理信息,为VGI的质量评价和筛选提供了新的视角。

English Abstract

赵肄江, 周晓光, 黄梦妮. 基于用户信誉的自发地理信息可信度计算模型[J]. 武汉大学学报 ● 信息科学版, 2016, 41(11): 1530-1536. doi: 10.13203/j.whugis20140726
引用本文: 赵肄江, 周晓光, 黄梦妮. 基于用户信誉的自发地理信息可信度计算模型[J]. 武汉大学学报 ● 信息科学版, 2016, 41(11): 1530-1536. doi: 10.13203/j.whugis20140726
ZHAO Yijiang, ZHOU Xiaoguang, HUANG Mengni. Computing Model of Volunteered Geographic Information Trustworthiness Based on User Reputation[J]. Geomatics and Information Science of Wuhan University, 2016, 41(11): 1530-1536. doi: 10.13203/j.whugis20140726
Citation: ZHAO Yijiang, ZHOU Xiaoguang, HUANG Mengni. Computing Model of Volunteered Geographic Information Trustworthiness Based on User Reputation[J]. Geomatics and Information Science of Wuhan University, 2016, 41(11): 1530-1536. doi: 10.13203/j.whugis20140726
  • 自发地理信息(volunteered geographic information, VGI)具有覆盖范围广、准实时、免费共享等特点[1, 2],正迅速成为专业地理信息的重要补充[1]。目前已在交通、地理信息服务、应急救援等领域得到广泛应用[3-5]

    VGI由大众志愿者自发标报,可能存在大量恶意、低质、虚假数据,与传统专业人员获取地理信息相比,其可信度具有诸多不确定性,需要对其进行可信度评价方可放心使用[1, 2]。但目前可信度评价的研究工作还刚刚起步,主要分为基于数据质量的评价[6-8]和基于数据可信度的评价[9-12]两类。前者将VGI数据与权威专业数据对比分析得出质量情况,该类方法需要权威数据的支持,但权威数据存在不易获取及有些数据的丰富程度不如VGI等问题;第二类方法则不需要专业数据的支持,得到很多研究者的重视,Grira等指出VGI环境中,不同贡献者对地理信息的质量具有很大的认知区别[13],有必要建立针对数据贡献者的评价模型。文献[10]提出在VGI的质量控制指标中增加用户指标,包括用户经验、本地知识等,建立用户质量测度模型,实现VGI的质量控制,但是并没有提出具体模型。Bishr等提出一种VGI环境下的信任和信誉评价模型[9],该模型将社会距离和地理距离相结合,采用用户评分机制来评价VGI的可信度,该方法需要用户对地理要素打分评价,增加了用户的额外工作量,而且需要获取用户之间的社会关系等信息;Keẞler等提出从5个维度(用户数、版本数、确认数、标签修正、回滚等)评估VGI的可信度[11],得出目标可信度可作为VGI质量评价的一种手段的结论,但该模型尚未顾及用户信誉的评价机制,而且可信度评价的对象要求具有5个版本以上,存在评价覆盖率低的问题。

    总之,VGI可信度度量方面的研究工作还方兴未艾,目前尚未见到基于志愿者信誉度的地理对象可信度计算方面研究成果。本文借鉴地理对象可信度等相关研究工作,提出了一种基于贡献者信誉的地理对象可信度计算模型。首先对贡献者信誉建模,将用户信誉分为初始信誉和评价信誉两部分,初始信誉结合用户信息的完整性和身份认证发展用户信誉动态初始化方法,评价信誉采用版本相似度的评价方法;然后聚合VGI对象编辑过程和参与贡献的用户信誉对地理要素可信度建模;最后采用OpenStreetMap(OSM)中的柏林市历史数据对VGI可信度计算模型进行分析和验证。

    • 多位学者都已经认识到志愿者信誉是影响VGI数据质量的重要因素之一,但目前缺少志愿者信誉度计算的研究成果。所以本文拟从志愿者信誉的角度对自发地理信息的可信度进行评价,VGI可信度评价总体思路如图 1所示。

      图  1  VGI可信度评价总体思路

      Figure 1.  Overview of Assessing VGI Trustworthiness

      鉴于用户信誉对用户贡献的目标质量有重要的影响[10, 11],需要建立适用于VGI环境的用户信誉模型。经初步分析,用户信誉可以分为初始信誉和评价信誉两部分[14, 15],初始信誉是指贡献者作为新用户加入VGI系统中,参与贡献前的信誉值,主要取决于其身份的真实性、诚实性、专业相似性等因素,多数信誉系统对用户信誉初始值的关注较少。本文拟结合用户注册信息的完整性和身份认证发展用户信誉动态初始化方法;评价信誉是指用户参与贡献后,得到其他用户的评价而获得的信誉值的聚合,主要取决于其在VGI系统中的行为表现,如其添加、修改、评价等行为的数量和质量等。由于大多VGI系统中缺乏直接评价环节,如何定义VGI信息质量的评价和如何量化评价是评价信誉的基础。最后聚合初始信誉与评价信誉得到VGI用户信誉。

      由于每个VGI目标可能由多个用户参与贡献,包含多个版本,其质量不能仅由最终版本用户信誉确定,应综合考虑整个编辑过程。经初步分析,影响VGI可信度的因素包括VGI自身信息、编辑过程、参与贡献的用户信誉。其中VGI自身信息主要是指数据的来源、精度、一致性等[11],由于VGI中普遍缺乏元数据信息,大部分数据来源、精度无从考究,语义解析难度大,所以本文暂不考虑这部分因素的影响。在地理目标的编辑过程方面,相关因素主要包括目标版本间的几何变化、属性变化和编辑者信誉等,综合上述因素并考虑目标版本数和用户数等信息对VGI可信度建模。最后通过OSM编辑历史数据对地理目标可信度计算模型的有效性进行实验验证。

    • 用户信誉主要由用户的初始信誉和评价信誉[14, 15]两部分组成,本文首先分别介绍用户初始信誉和评价信誉的计算方法,然后聚合两者得出VGI用户信誉模型。

    • 用户初始信誉是用户参与贡献前的信誉值,主要取决于其身份的真实性、诚实性、专业相似性等因素,目前主要的定值策略分为固定值初始化和动态初始化两类[14, 16]

      用户注册信息的完整性和身份认证信息反映用户参与贡献的认真和真实程度,根据VGI系统的实际情况,可采用动态初始化方法中的用户信息完整度和身份认证的方法来确定用户的初始信誉。McKnight等将信任相关的特征分为诚信、道德、能力、可预测性和其他等5维[17],根据天地图、OSM等用户注册信息情况,身份ID、E-mail和手机号码等信息可用于确定用户真实性,属于诚信维;其他信息如专业、职业等,可用于确定用户的贡献能力、贡献水平以及贡献的认真程度,统称为其他维。由于身份认证各要素有一定的等同作用,而且任何一项的认证都有很重要的意义,所以诚信维的值等于维内各要素认证取值的最大值(最大值为1);其他维的值为维内各要素值的加权平均。设R0(u)为用户u的初始信誉,则R0(u)的值根据用户u的诚信维和其他维的加权平均得出:

      (1)

      式中, xfaithi表示诚信维的第i个元素(1≤i≤m);max()函数表示取诚信维各元素的最大值;xotheri表示其他维的第i个元素(1≤in);α表示诚信维和其他维的权重,根据McKnight文中调研的结果可暂设为0.6;随着VGI系统的运行,用户的信誉基本由其评价信誉确定,此时在总体上来确定注册完整性和用户信誉之间的关系,调整α的取值。

    • 图 2所示,某地理对象L有多个版本,分别采用版本vi表示,其中0≤in(这里n=6),版本v0为空。图 2中每个版本下方给出了生成该版本的用户名,版本vi的贡献者为ui(1≤in),如版本v3的编辑者为u3,其用户名为User B;ei(1≤in)表示用户对L进行第i次编辑(包括新建、修改、删除),即对版本vi-1进行编辑生成版本vi,如对版本v2进行编辑e3生成版本v3。如L被删除,则其最终版本vn为空。也即对于某一对象L而言,用户u1执行编辑e1,生成版本v1,第2至n个志愿者依次对L的第1至n-1个版本进行修改(依次为e2~en),其编辑者依次为u2~un

      图  2  VGI编辑过程

      Figure 2.  Editing Process of VGI

      图 2描述了多用户参与编辑、修改一个地理空间目标的过程,修改原因主要分为两类:(1) 对之前用户编辑目标进行提升质量的修正(简称目标修正);(2) 目标本身发生改变的修改(简称目标变化)。如果修改原因为目标修正,则VGI中在对要素的编辑过程中蕴含了对目标之前版本的评价。该评价表现为后继贡献者对之前版本修改越少,则说明该用户对之前版本编辑用户的支持度越高;反之亦然。

      所以,VGI环境下编辑过程中蕴含的信誉评价是在目标有新的版本生成时发生,此时对该目标的之前版本用户的信誉进行评价。具体方法是,当用户uj对某对象L编辑ej生成版本vj时,设titj分别为目标版本vivj的创建时间,对于所有的0<ijj-iN,如果编辑原因是目标变化,则不参与信誉计算;如编辑原因为修正,则参与信誉计算;如果编辑原因不明,则当tj-tiT时参与信誉计算;用户ui因贡献版本vi得到uj的信誉评价值E(ui, uj)由评价者uj的信誉和评价值共同决定,其值根据式(2)计算:

      (2)

      其中, N为评价版本数的阈值,用于控制当目标版本vj创建时,只有N个小于j的版本被评价;T为时间阈值,用于控制参与评价的两版本之间的时间跨度,如果超过时间阈值,则不执行评价,这样可将评价时间控制在短期范围内,当编辑原因不明时用以区别目标变化和目标修正两种情况;R(uj)是uj在执行编辑ej时候的用户信誉;参数c∈[0, 1]是指数常数,用于控制评价者的信誉值影响其评价可信度的程度;SV(ui, uj)是版本vivj之间的版本相似度,用来表述版本vjvi的评价值,即后继用户对之前版本修改越小,说明该用户对之前版本编辑用户的支持度越高,反之亦然,具体计算方法为:

      (3)

      式中,Esimk(ui, uj) ∈[0, 1]表示某空间对象Lvivj两个版本之间的第k个相似度计算因子(1≤kKK表示参与评价相似度的因子数量),不同类型的对象(点、线、面)的相似度因子有所不同,一般可从位置、形状、大小、属性等方面计算,wk表示版本相似度各因素的权值,且

      式(2)描述的是单个目标的某版本对之前贡献信誉度的单次计算,即某用户u'对用户u评价一次,该公式运算一次,评价值为E(u, u′)。在自发地理信息中,用户u可能被多次评价,假设贡献者u在最近的某个时间段内编辑空间目标版本被评价次数为L,则用户总体评价信誉Re(u)为:

      (4)
    • 用户信誉是初始信誉和评价信誉的聚合,涉及到二者加权计算问题。当某用户注册VGI系统,尚未贡献地理要素之前,该用户没有获得其他用户对他的评价,所以评价信誉部分的值为0,用户信誉仅由初始信誉确定;随着用户参与贡献,开始获得评价,当评价较少的时候,评价信誉并不一定能真正地反映用户的真实信誉值,此时,用户信誉的组成情况为初始信誉为主,评价信誉为辅;随着贡献的增多,评价信誉会越来越逼近用户的真实信誉,此时,用户信誉应该由评价信誉为主,初始信誉为辅;最终基本由评价信誉决定;采用指数函数作为权值可以达到这种效果。因此,设用户u的信誉值为R(u),则该用户信誉为:

      (5)

      式中, R0(u)表示用户的初始信誉;Re(u)表示评价信誉;m表示被评价的次数;M为正的自然数常量,用来控制R0(u)和Re(u)对用户信誉影响的权重,其值可由用户信誉值收敛的平均次数决定。

    • 本文认为影响VGI可信度的因素主要包括VGI自身信息、编辑过程、参与贡献的用户信誉。由于部分VGI自身信息缺乏,如来源、精度等信息无从考究,本文暂不考虑这些因素,仅从目标的编辑过程和参与贡献的用户信誉等方面计算VGI可信度。

      假设目标L具有5个版本,分别为v0v4,如表 1所示,其中v0版本为空,v1由用户u1新建,v2v3v4由分别由用户u2u3u4修改生成,表中给出了各用户的信誉值以及编辑的比例。目标L在上述编辑过程中版本数、参与贡献的用户信誉、版本间的几何变化和属性变化对目标的可信度有很大的影响[11]。Mooney等的研究表明目标的版本数和目标质量呈一定的正比关系[18],结合版本数和贡献者的信誉情况能更好地反映VGI目标的质量;参与贡献者的信誉越高,则地理目标的可信度越高,如表 1中用户u2u4的信誉值均在0.85以上,其贡献的目标可信度较高;而用户u3信誉值为0.4,其贡献的可信度较低。对于版本间的几何、属性变化对可信度的影响而言,这种几何属性的修改存在以下两种情况:①前一版本的质量较低或不够好,后续用户通过修改提升质量,这种情况提升了目标的可信度;②前一版本质量较好,但遭到用户故意破坏,则目标的可信度应该降低。本文拟根据用户的信誉高低和修改比例来区分这两种情况,如果是高信誉用户编辑,则提升目标的可信度;否则,降低目标的可信度,并根据编辑比例决定降低尺度。

      表 1  某目标编辑过程与可信度

      Table 1.  Editing Process and Trustworthiness of an Object

      目标版本号
      v0 v1 v2 v3 v4
      贡献者信誉 Null u1:0.7 u2:0.9 u3:0.4 u4:0.85
      编辑比例/% 0 100 10 50 40
      目标可信度 Null 0.7 0.9 0.65 0.85

      根据上述分析,设目标L的版本vi的可信度值为T(vi),版本vi的创建者或编辑者的信誉值为R(ui)。综合用户信誉和编辑过程等因素,当L版本为v1时,则该目标为新建目标,仅有一个版本,该目标的可信度为其贡献用户信誉度,如表 1中,版本v1可信度值为用户u1的信誉值;如果版本号大于1,由于目标当前版本vi是在版本vi-1基础之编辑而成,因此,vi的可信度受到前一版本vi-1的可信度值、当前版本vi的贡献者的信誉和对vi-1的编辑程度等因素的影响。为计算版本vi的可信度,将版本vi-1的分为两个部分,即vivi-1的编辑部分和未编辑部分;其中编辑部分可信度值根据编辑者ui的信誉值确定,未编辑部分虽然是编辑者没有修改的比例,极可能表示用户的认可部分[11],如表 1中版本v2只对v1修改了10%,90%的未编辑部分是用户u2u1贡献的肯定,也即共同认可的部分,所以这部分的可信度值由前一版本的可信度值和编辑者信誉的较大值决定。将两部分信誉值相加得到当前版本vi的可信度值,版本vi(i>1)的可信度值为:

      (6)

      式中,R(ui)为版本vi的贡献者ui的信誉值;max()函数表示取最大值;T(vi-1)表示版本vi-1的可信度值;SER(vi, vi-1)表示版本vivi-1的编辑比例,可以看作编辑部分,编辑比例采用版本相似度来进行计算。版本相似程度越大,说明编辑比例越小;反之亦然。版本间的编辑比例计算方法为:

      (7)

      表 1列举了某目标的连续5个版本(其中v0为空版本)编辑过程中可信度的变化情况,第一个用户u1为创建者,其信誉值为0.7,目标L的可信度由该用户的信誉值决定,可信度值为0.7;当第二个用户u2修改v1生成v2时,用户的信誉为0.9,虽然用户只修改了10%,但是该用户对目标未修改的部分(90%)基本认可,根据式(6)可计算出目标的可信度值为0.9;第三个用户u3对目标修改生成v3,其修改的比例为50%,由于用户信誉较低(0.4),根据式(6)计算出目标的可信度下降至0.65,有可能遭到一定程度的破坏;第4个用户u4的信誉值较高,该用户的修改提升了目标的可信度值。

    • 为了验证本文所提出的VGI可信度计算模型的合理性,选取VGI代表项目OSM的真实历史数据进行实验。由于OSM的总数据量庞大,故选取柏林市2006-01-28至2013-02-15的历史数据进行分析。本实验主要采用线目标,试验数据包含线对象版本数共计557 097个,参与的贡献者共2 704位。

      根据VGI可信度计算模型,对参与贡献的用户信誉和线目标的可信度进行计算。由于用于实验的历史数据中没有提供贡献者信息,实验时用户信誉由评价信誉决定。

      计算用户信誉和VGI可信度值时,需要计算线目标版本相似度,由于VGI属性牵涉多国语义,其相似度难以计算,因此,本文只计算版本间的几何相似度。在几何相似度方面的研究成果丰富[19-23], 根据线目标特点和本文VGI环境信誉评价的需求,从长度[22]、缓冲区面积重叠率[23]和形状方面进行计算,其中形状相似度采用Arkin等提出的目标旋转角度距离[19]进行计算。设置相关参数N=3,c=1,T=365,柏林地理信息志愿者共有2 494位用户被其他用户评价,用户信誉值范围为0至1,以0.1为间隔分成10个区间,人数分布为{2, 4, 22, 45, 257, 1 629, 413, 90, 19, 13},服从正态分布。

      根据线目标最终版本,按照可信度值区间分布在ArcGIS上以不同颜色显示,并叠加Google影像地图进行分析,效果如图 3所示。

      图  3  Berlin线目标按可信度值区间分布图

      Figure 3.  Interval Distribution of Trustworthiness of Berlin's Polylines

      由于线目标数量众多,很难逐个验证每个目标的准确性,所以采用区间采样分析的策略进行验证。在样本选取方面,为了避免主观因素对评价结果的影响,本研究请有经验的人员选取样本。样本选取的方法是按照线目标的可信度区间(分别为0~0.4、0.4~0.5、0.5~0.6、0.6~0.7、0.7~0.8、0.8~0.9和0.9~1,共7个区间)分别采样。为了分散各采样对象,采样依据如图 3中的网格区域进行。最终采样数为1 443个,其中212个样本因遮挡等原因不能识别,除去后的有效样本共计1 231个,筛选出的样本由268位志愿者贡献,约占最终版要素的贡献人数的25.2%。根据线对象采样情况,请有经验的人员对采样样本进行分析,将线对象的绘制效果分为效果好、效果较好、效果较差和错误等。

      根据采样分析结果显示,错误线对象约占采样总数6%;效果较差对象约占采样总数11.5%;效果较好的对象约占采样总数21%;效果好的对象约占采样总数61.5%;采样分析结果表明总体上数据质量较好,错误数量较少。可信度值低的线对象中错误和效果差的情况比较突出,尤其当对象可信度值低于0.5时,错误数约占总错误数的93.2%。可信度值大于0.5对象的错误数明显减少,0.5~0.6区间仅出现了5例错误情况,据统计,该5例错误均在可信度值0.55以下,而信誉值小于等于0.55的线要素的数量为3 973个,占线对象总数的3.82%。效果较差的情况基本随着线对象的可信度值的提升,数量和比例逐渐减少。总体来说,自发地理信息中的线对象的质量和其可信度值呈正相关关系,错误线对象基本上都分布在较低的可信度值区间,同时也说明可信度计算模型是评价自发地理信息质量的一种有效方法。

    • 针对自发地理信息中存在恶意、虚假、低质量数据,但目前其数据质量评价困难等问题,本文提出了基于用户信誉的VGI可信度计算模型,该模型综合考虑了VGI参与贡献的用户信誉、各版本间的编辑程度和目标的版本数等因素,并采用OSM的德国柏林真实数据进行实验,计算各线目标的可信度值,经过随机采样分析得出VGI中的线目标的质量和其可信度值呈正相关关系。本模型借鉴电子商务用户信誉概念,具有实践和理论支撑,而且评价方法客观,相对于无用户直接评价的VGI信誉模型而言,本模型的评价覆盖面比现有模型更广,如采用文献[11]等提出的从版本数、用户数等方面统计计算目标的可信度,只能评价17.3%的目标,本文评价覆盖率达94.9%。

      本文在用户初始信誉计算中,诚信维和其他维的权值尚需后续原型系统实验支持和验证;开发可收集志愿者认证和注册等信息的VGI原型系统,进一步完善、验证用户初始信誉评价部分的有效性将是下一阶段的重要研究内容;在VGI可信度计算时,本文尚未顾及目标本身的质量问题,如来源、精度、一致性等,这些都是需要继续研究的问题。

参考文献 (23)

目录

    /

    返回文章
    返回