留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

顾及信誉的众源时空数据模型

周晓光 赵肄江 李光强 张攀

周晓光, 赵肄江, 李光强, 张攀. 顾及信誉的众源时空数据模型[J]. 武汉大学学报 ● 信息科学版, 2018, 43(1): 10-16. doi: 10.13203/j.whugis20150378
引用本文: 周晓光, 赵肄江, 李光强, 张攀. 顾及信誉的众源时空数据模型[J]. 武汉大学学报 ● 信息科学版, 2018, 43(1): 10-16. doi: 10.13203/j.whugis20150378
ZHOU Xiaoguang, ZHAO Yijiang, LI Guangqiang, ZHANG Pan. Crowdsourcing Spatio-Temporal Data Model Considering Reputation[J]. Geomatics and Information Science of Wuhan University, 2018, 43(1): 10-16. doi: 10.13203/j.whugis20150378
Citation: ZHOU Xiaoguang, ZHAO Yijiang, LI Guangqiang, ZHANG Pan. Crowdsourcing Spatio-Temporal Data Model Considering Reputation[J]. Geomatics and Information Science of Wuhan University, 2018, 43(1): 10-16. doi: 10.13203/j.whugis20150378

顾及信誉的众源时空数据模型

doi: 10.13203/j.whugis20150378
基金项目: 

国家自然科学基金 41371366

详细信息
    作者简介:

    周晓光, 博士, 教授, 研究方向为时空数据建模、更新与服务。zxgcsu@foxmail.com

    通讯作者: 赵肄江, 博士, 讲师。zhaoyijiang@163.com
  • 中图分类号: P208

Crowdsourcing Spatio-Temporal Data Model Considering Reputation

Funds: 

The National Natural Science Foundation of China 41371366

More Information
    Author Bio:

    ZHOU Xiaoguang, PhD, professor, specializes in spatio-temporal data modelling, updating and service. E-mail:zxgcsu@foxmail.com

    Corresponding author: ZHAO Yijiang, PhD, lecturer, specializes in volunteered geographic information. E-mail: zhaoyijiang@163.com
图(5) / 表(1)
计量
  • 文章访问数:  1241
  • HTML全文浏览量:  77
  • PDF下载量:  385
  • 被引次数: 0
出版历程
  • 收稿日期:  2015-10-14
  • 刊出日期:  2018-01-05

顾及信誉的众源时空数据模型

doi: 10.13203/j.whugis20150378
    基金项目:

    国家自然科学基金 41371366

    作者简介:

    周晓光, 博士, 教授, 研究方向为时空数据建模、更新与服务。zxgcsu@foxmail.com

    通讯作者: 赵肄江, 博士, 讲师。zhaoyijiang@163.com
  • 中图分类号: P208

摘要: 提出了一种顾及信誉度的众源时空数据模型。在分析众源时空数据中地理要素、目标状态、对象版本、贡献者、信誉度、改变现实空间实体或信息空间对象状态的事件等要素间的相互作用机理的基础上,采用面向对象方法设计了一种顾及信誉度的众源时空数据组织方法,用UML对其进行描述,分析了与信誉度相关操作及其联动关系,得出了8条联动规则。开发了顾及信誉度的众源时空数据管理原型系统,验证了所提模型的有效性。

English Abstract

周晓光, 赵肄江, 李光强, 张攀. 顾及信誉的众源时空数据模型[J]. 武汉大学学报 ● 信息科学版, 2018, 43(1): 10-16. doi: 10.13203/j.whugis20150378
引用本文: 周晓光, 赵肄江, 李光强, 张攀. 顾及信誉的众源时空数据模型[J]. 武汉大学学报 ● 信息科学版, 2018, 43(1): 10-16. doi: 10.13203/j.whugis20150378
ZHOU Xiaoguang, ZHAO Yijiang, LI Guangqiang, ZHANG Pan. Crowdsourcing Spatio-Temporal Data Model Considering Reputation[J]. Geomatics and Information Science of Wuhan University, 2018, 43(1): 10-16. doi: 10.13203/j.whugis20150378
Citation: ZHOU Xiaoguang, ZHAO Yijiang, LI Guangqiang, ZHANG Pan. Crowdsourcing Spatio-Temporal Data Model Considering Reputation[J]. Geomatics and Information Science of Wuhan University, 2018, 43(1): 10-16. doi: 10.13203/j.whugis20150378
  • 众源数据或志愿者地理信息(volunteered geographic information, VGI)具有覆盖范围广、免费共享、准实时等特点[1-2],正迅速成为专业地理信息的重要补充[1, 3]。开放街道地图(OpenStreetMap,OSM)目前已在基于网络的地理信息服务、应急救援等领域得到广泛应用。

    目前,学术界对众源数据的研究工作主要集中于VGI应用、数据质量与可靠性评价、数据存储管理与索引等方面[1, 4]。与传统时空数据由专业人员按照严格的程序规范进行采集与更新[5]不同,众源数据由大众志愿者自发标报,其可信度具有诸多不确定性,且贡献者的信誉对众源数据质量有重要影响[6-7]。文献[6]认为贡献者的非专业性是VGI数据质量问题的重要原因。文献[7]认为贡献者在对地理事物的认知上有很大的区别,有必要建立针对地理信息贡献者的评价模型。文献[8]提出信息信任概念,将信任作为众源数据质量评价的一种手段。文献[9]通过众源数据的版本数、用户数等来计算目标可信度。文献[10]提出了一种基于版本相似度的众源数据贡献者信誉度评价方法。总之,与信誉相关的数据在众源数据质量控制中起着举足轻重的作用,故需建立顾及信誉的众源时空数据模型。

    目前在众源数据模型方面的理论研究成果较少。在众源数据收集平台方面,OSM采用关系数据库存储点、线和关系数据及其属性,当前数据和历史数据分别存储,未对信誉相关数据进行有效组织管理;谷歌地图和WikiMapia均采取社会等级机制对志愿者贡献目标进行质量控制[2],其用户级别主要根据贡献量确定,但由于贡献量与贡献目标质量间的不对等关系,其数据组织仍不能满足众源数据可信度评价需求。

    时空数据模型研究方面已取得丰富的研究成果,按照模型侧重点的不同,可将时空数据模型分为[11]:①侧重记录实体状态的时空数据模型,如时空快照、时空立方体、非第一范式时空数据模型等[12-13];②侧重时空目标变化过程和因果关系的模型,如基于事件的时空数据模型、面向事件的版本化模型、基于事件的因果关系模型等[14-16];③侧重时空目标和时空关系描述,如面向对象的时空数据模型等[17];④侧重移动目标的实时数据模型,如实时地理信息系统(Geographic Information System, GIS)时空数据模型等[18-19]。上述时空数据模型各具特点,已经在相应行业中得到应用[18]。但是,上述模型都是针对专业地理信息建立,由于专业地理信息不存在与信誉相关的要素,都不能满足众源数据信誉计算与服务需求。

    总之,现有时空数据模型不能有效表达用户和目标的信誉信息,不能提供根据信誉选择目标版本等与信誉相关的信息查询与服务。因此,本文借鉴传统时空数据模型的建模方法,在分析众源数据形成机制、信誉要素及其相互关系的基础上提出了一种顾及信誉度的众源时空数据模型,设计了信誉相关操作及其联动关系,并通过实验分析了该模型的有效性。

    • 在专业地理信息中,数据库对象版本与现实世界目标状态一一对应,数据更新的原因就是目标状态发生了变化。但在众源数据环境下,数据更新的原因主要包括目标修正和目标变化两类。前者对应目标状态没有变化的修改,即贡献者在地理目标本身没有变化的情况下,为提升目标质量等而进行修改;后者对应于目标状态发生变化的修改。在这种存在大量修改的细粒度时间框架下,地理目标的同一状态可能包含多个版本,传统时空数据模型难以有效处理这种情况。如图 1描述了多个志愿者共同编辑某地理目标的同一状态,形成多个目标版本的过程,图 1中贡献者cg创建了该状态的第一个版本v1,用户cj-2通过编辑版本vi-2得到版本vi-1cj-1cjck通过编辑vi-1分别得到版本vi0vi1vi2cn通过编辑vi1得到版本vm。值得注意的是,图 1仅描述了一个状态内的编辑演化过程,在实际情况中,同一地理目标可能包含多个状态,而且每个状态都可能包含多个版本。

      图  1  众源数据形成机制

      Figure 1.  Formation Mechanism of Crowdsourcing Data

      文献[20]对OSM中地理目标编辑历史的研究表明,目标的最终版本不一定是最好版本,如图 1所示同一目标状态可能存在m个版本,vm为最终版本但不一定为最佳版本。因此,如何选择目标的最佳版本是VGI的一个重要问题,多位学者认为目标可信度可以作为衡量目标质量的依据[8-9],可对同一目标状态的各个版本进行可信度评价,取可信度最高的版本作为该状态的选用版本。

      贡献者信誉对众源数据可信度有着重要影响,因此,在众源时空数据模型中应该有效组织影响贡献者信誉的相应要素。目前在众源数据环境中,用户之间的评价包括显式评价和隐式评价两类。显式评价,即用户采取直接打分方式对其他用户贡献对象直接评分,如淘宝中对商品的评价打分;隐式评价,即用户不直接评分,而是采用其他相关信息推断出用户的隐含评分。事实上,众源数据的编辑过程中蕴含了用户之间的隐式评价[10],如图 1中,该地理目标的某一状态包含多个版本,由于同一状态下的目标本身并未发生变化,所以版本vi-2v1间的相似程度隐含了版本vi-2的编辑者对版本v1的支持程度,具体表现为相似程度越大,支持度越大,反之亦然。所以,版本vi-2v1间的相似程度隐含了版本vi-2的贡献者对cg的信誉评价。同理,cj-1通过版本vi-1隐式评价了cgcj-2cn通过其参与贡献版本vm隐式评价了之前的其他版本的贡献者,即cgcj-2cj-1cjck。根据用户之间的隐式评价,可以计算出用户之间的评价值,然后通过加权计算可得出贡献者的信誉。

      从众源空间数据的形成过程可看出,空间目标、目标状态、地理事件(即导致目标或目标状态变化的原因)是众源空间数据与专业GIS系统的共有要素,贡献者、目标状态版本、贡献者信誉、版本信誉、状态版本变化事件则是众源空间数据系统所特有的信誉要素。

    • 众源空间数据由普通大众自发贡献,贡献过程中贡献者信誉和目标信誉在不断演化。分析清楚信誉要素间的相互关系是建立顾及信誉的众源时空数据组织及信誉操作联动机制的基础。

      众源时空数据系统要素主要包括空间目标、目标状态、目标版本、地理事件、贡献者、贡献者信誉、版本信誉、信息事件(即状态版本变化事件)。

      贡献者主要指大众用户,是众源空间数据系统的重要组成部分。借鉴电子商务等相关众源数据系统方法,在每个用户注册后即可拥有根据注册信息计算获得的初始信誉;用户在系统中贡献地理对象后,其他用户对他的贡献可进行直接或间接评价,即可形成评价信誉。因此,贡献者信誉包括初始信誉和评价信誉等。

      在传统时空数据模型中,事件往往是空间对象状态变化的原因,对象状态、版本与地理变化事件具有一一对应关系。在众源地理信息环境中,由于一个对象状态可能对应多个版本,每个版本对应一个贡献者的一次“新建/修改/删除”事件。因此,众源地理信息环境中包含地理事件和信息事件两类事件。地理事件对应于现实空间中真实存在的事件,这类事件改变其影响的地理要素的真实状态;信息事件对应于信息世界中的“新建/修改/删除”事件,在众源数据环境中,表现为用户通过对目标版本的修改以改变其在信息空间中的状态,但现实世界中空间目标的真实状态并没有改变。众源时空数据系统核心要素及其相互关系如图 2所示。

      图  2  众源数据信誉相关要素及关系

      Figure 2.  Reputation Related VGI Elements and Their Relationships

    • 统一建模语言(unified modeling language,UML)具有简单、统一的特点,已成为可视化建模语言的工业标准,因此,本文选用UML对模型进行描述。为突出重点,图 3仅给出了该模型的UML简图。

      图  3  顾及信誉度的众源时空数据UML简图

      Figure 3.  UML Diagram of VGI Model Considering Trust Degree

      地理对象类用于描述地理对象的生命周期可用元组(编号ID,地理对象类型编码L,开始时间Ts,结束时间Te等)表达;对象状态类用于描述对象状态的存在周期,可用元组(编号ID,地理对象编号G,状态选用版本号S,开始时间Ts,结束时间等Te)表达;对象版本类用于描述地理对象的数据库编辑记录,可用元组(编号ID,地理对象编号G,状态编号S,空间特征K,专题特征A,贡献者C,版本编号V,开始时间Ts,结束时间Te等)表达;当前状态版本类用于描述所有当前地理对象最新状态信息,可用元组(编号ID,地理对象编号G,状态编号S,版本编号V,是否最佳版本Vb等)表达。

      贡献者类用于描述贡献者的注册信息,可用元组(编号ID,用户名N,密码P,注册时间T,是否注销X,是否临时停用B等)表达;贡献者评价类用于描述贡献者间的评价,可用元组(编号ID,被评价者C1,评价者C2,被评价版本V1,评价版本V2,目标类型Lg,评价类型La,评价时间T,评价值Z等)表达;显式评价类用于描述贡献者对众源数据的显式评价,可用元组(编号ID,是否为故意破坏H,是否为错误对象E,位置精度评分W,语义精度评分Y等)表达;初始信誉类用于描述与贡献者信誉影响要素及初始值,可用元组(编号ID,邮箱M,电话D,真实姓名N,身份证号I,其他信息F,信息验证J,初始信誉值R,时间T等)表达;贡献者综合信誉类用于描述贡献者综合信誉,可用元组(编号ID,贡献者C,信誉值R,开始时间Ts,结束时间Te等)表达,信息空间事件类用于描述信息空间事件,可用元组(编号ID,事件类型Le,贡献者C,目标版本编号V,时间T等)表达;地理事件类用于描述真实地理事件,可用元组(编号ID,事件名称N,事件类型Le,描述I,贡献者C,目标版本编号V,时间T等)表达。各类的形式化表达及主要操作见表 1

      表 1  类的形式化表达和操作

      Table 1.  Formalization and Operations of Class

      类名 英文名 形式化表达 主要操作
      地理对象类 GeoObject (ID, L, Ts, Te) 增加/获取/删除地理对象,移库
      对象状态类 State (ID, G, S, Ts, Te) 增加/获取/删除对象状态,移库
      对象版本类 Version (ID, G, S, K, A, C, V, Ts, Te) 增加/删除/获取对象版本,获取对象状态,版本可信度计算,移库
      当前状态版本类 CurrStateVer (ID, G, S, V, Vb) 增加/更新/删除状态版本
      贡献者类 Contributor (ID, N, P, T, X, B) 增加/查询/注销/阻挡志愿者,移库
      贡献者评价类 UserEvaluate (ID, C1, C2, V1, V2, Lg, La, T, Z) 增加/获取/删除评价,移库
      显式评价类 ExplicitEvaluation (ID, H, E, W, Y) 增加/修改/获取/删除显式评价,移库
      初始信誉类 InitRep (ID, M, D, N, I, F, J, R, T) 增加/修改/获取初始信誉,贡献者信息验证,初始信誉计算,移库
      贡献者综合信誉类 Reputation (ID, C, R, Ts, Te) 增加/更新/获取贡献者信誉,移库
      信息空间事件类 InfoEvent (ID, Le, C, V, T) 增加/查询事件,获取事件相关地理对象,移库
      地理事件类 GeoEvent (ID, N, Le, I, C, V, T) 增加/查询事件,获取事件地理对象,移库
    • 数据操作是数据模型的重要组成部分,在顾及信誉度的众源时空数据模型中,对象版本可信度、贡献者信誉度和对象编辑过程之间的联动变化关系复杂,为了自动维护信誉要素间的一致性,需要建立信誉度操作间的联动关系。

    • 信誉操作包括初始信誉类中的新增初始信誉addInitRep( )、更新初始信誉updateInitRep( )、获取初始信誉getInitRep( )、验证用户信息validateUserInfo( );贡献者评价信誉类中的增加评价addEvaluation( )、获取评价getEvaluation( );贡献者综合信誉类中的增加信誉addReputation( )、更新信誉updateReputation( )、获取信誉getReputation( );对象版本类中的可信度计算computeTrustDegree( )、更新可信度updateTrustDegree( )、获取可信度getTrustDegree( )等操作。

    • 为了确保顾及信誉度的时空数据系统顺利运行,维护顾及信誉的时空数据一致性,在用户注册、新建目标版本、评价目标版本等操作过程中需要自动驱动相应的联动操作,为此需要设计信誉操作联动规则。假设目标A包含n个版本(n为大于0的整数),按照生成时间顺序依次为v1v2v3,…,vn,版本vi(1<in)的贡献者为用户ci。以用户ci贡献目标A的版本vi为例,信誉度操作间的主要联动关系如图 4所示。

      图  4  信誉度主要联动操作

      Figure 4.  Linkage Operations of Reputation

      为提高信誉度联动操作的可靠性和鲁棒性,将联动关系可形式化成如下规则。

      规则1 当贡献者ci注册时,在InitRep和Reputation中分别增加ci对象。

      规则2 当贡献者ci贡献某目标A的版本vi,且对应的事件类型为信息空间事件时,则添加一个信息空间事件,否则添加一个地理事件。

      规则3 当贡献者ci新增目标A的版本v1,其联动操作包括增加地理对象、增加对象状态、设置版本可信度和在CurrStateVer中增加当前版本。

      规则4 当对地理目标进行修改,且事件类型不为信息空间事件,则对应该目标在现实世界中的状态变化,相应联动操作包括新增目标状态,更新目标版本的可信度,同时在CurrStateVer中增加当前版本并删除上一状态的所有版本。

      规则5 当对地理目标版本修改,且事件类型为信息空间事件,则对前述同一状态版本进行评价,也即版本vi对之前版本vk进行评价,然后更新该版本可信度值,最后在当前状态版本中增加版本vi

      规则6 当产生版本vjvi的隐式评价或用户cvi的显式评价,则评价并更新版本vi的贡献者ci的信誉。

      规则7 当用户ci的初始信誉信息有变更,则更新该贡献者的信誉。

      规则8 当版本vi的可信度值更新,则当前状态的最佳版本可能产生了变化,需重新设定当前状态的最佳版本。

    • 为了验证本文顾及信誉度的众源时空数据模型的有效性,作者设计了相应的数据结构,其中众源数据的目标版本存储借鉴了OSM的数据存储方式,构建了顾及信誉度的众源时空数据管理原型系统。由于众源数据采集周期长,本文采用OSM中的Berlin市历史数据集作为实验数据,首先将编辑历史数据(包括历史修改版本)导入系统,然后根据目标的整个编辑过程计算出参与贡献的用户信誉和目标可信度,由于实验数据中没有显式评价,用户评价根据隐式评价确定[10]。目标版本可信度的计算根据前一版本的可信度、当前版本的用户信誉值、版本之间的修改比例进行计算。在实验系统中,可查询地理对象当前状态和历史状态的快照,可以选择目标需要显示的状态和版本,并可对同一对象的任意两个版本之间进行相似度的比较和计算;在实验系统中,还可以根据某个对象的任意版本查询其贡献者的贡献情况,如图 5中Berlin某游泳池对象(对象ID:4839528)的7个版本的贡献者信誉和贡献目标数信息;另外还可以查看与设置用户信誉、回溯用户贡献的任意目标的各版本情况,可根据信誉度选择最可信版本作为采用版本等。

      图  5  地理对象各版本浏览

      Figure 5.  Versions of a Geographic Object

      从实验结果可以看出,顾及信誉度的众源时空数据模型能够有效地存储和处理用户信誉、目标可信度等相关信息,并能对用户的贡献情况进行统计分析等。与传统时空数据模型相比,本模型主要增加的部分为贡献者、贡献者初始信誉、贡献者评价、贡献者信誉的存储。存储量的增加主要集中在贡献者评价表。本模型中,贡献者评价表中的字段均采用数值型记录,每条记录的存储占40 B,存储1 000 000条记录约占38.15 MB;根据OSM中柏林市的实际历史数据采用SQL Server 2008的存储情况,面目标的版本数共计489 386条,占用存储196.22 MB,也即假设存储1 000 000条面目标的版本数据,约需要400.95 MB的存储空间。假如目标记录数和贡献者评价记录数据为1:1,则贡献者评价记录表和面目标记录表存储量占比约为9.51%,考虑到数据库中还需存储其他数据,增加贡献者评价记录表后数据存储量的增加应小于该比例。由此可知,所增加的存储量在可控范围之内,并通过定期移库操作,确保了模型的实用性。

    • 在VGI环境中,贡献者信誉对空间目标的质量有着重要影响,需要对贡献者进行信誉建模和评价;另外,空间对象的同一状态对应多个目标版本,多个版本之间需要可信度评价,以获取信誉值最高的目标版本。为了有效存储管理贡献者信誉信息,计算目标版本的可信度,本文提出了一种顾及信誉度的众源时空数据模型,用UML图描述了众源地理信息系统中的要素及其相互关系,分析了与信誉度相关的操作及其联动关系;使用“对象-状态-版本”的分层管理方式,将目标状态与其最可信版本联系起来,能更有效管理众源数据中存在大量对象版本的情况;通过实验验证本文模型的有效性。

      应该指出的是,影响众源数据可信度(或质量)的因素很多,包括贡献用户的诚信度、专业水平、用户间的相互评价、目标本身质量及其与周边目标间关系的协调性等。本文实验系统信誉计算与信誉相关操作及其联动作用等均主要考虑了根据用户编辑修改形成的间接评价信誉,尚未考虑根据目标本身质量及其与周边目标间关系的协调性来计算目标信誉的方法及其对于信誉相关操作的影响。后续工作将关注顾及目标本身质量及其与周边目标间关系的协调性的目标信誉度计算方法及其对于信誉联动操作的影响。

参考文献 (20)

目录

    /

    返回文章
    返回