出租车轨迹数据的地域间移动模式分析

龚希, 陈占龙, 谢忠

龚希, 陈占龙, 谢忠. 出租车轨迹数据的地域间移动模式分析[J]. 武汉大学学报 ( 信息科学版), 2018, 43(10): 1595-1602. DOI: 10.13203/j.whugis20170035
引用本文: 龚希, 陈占龙, 谢忠. 出租车轨迹数据的地域间移动模式分析[J]. 武汉大学学报 ( 信息科学版), 2018, 43(10): 1595-1602. DOI: 10.13203/j.whugis20170035
GONG Xi, CHEN Zhanlong, XIE Zhong. Analysis on Zone-based Movement Pattern Using Taxi Trajectory Data[J]. Geomatics and Information Science of Wuhan University, 2018, 43(10): 1595-1602. DOI: 10.13203/j.whugis20170035
Citation: GONG Xi, CHEN Zhanlong, XIE Zhong. Analysis on Zone-based Movement Pattern Using Taxi Trajectory Data[J]. Geomatics and Information Science of Wuhan University, 2018, 43(10): 1595-1602. DOI: 10.13203/j.whugis20170035

出租车轨迹数据的地域间移动模式分析

基金项目: 

国家重点研发计划 2017YFC0602204

国家自然科学基金 41401443

国家自然科学基金 41671400

中央高校基本科研业务费专项资金优秀青-基金 CUG160226

详细信息
    作者简介:

    龚希, 博士生, 主要从事交通GIS方面的研究。gongxi_cug@126.com

    通讯作者:

    谢忠, 博士, 教授。xiezhong@cug.edu.cn

  • 中图分类号: P208

Analysis on Zone-based Movement Pattern Using Taxi Trajectory Data

Funds: 

The National Key R & D Program of China 2017YFC0602204

the National Natural Science Foundation of China 41401443

the National Natural Science Foundation of China 41671400

the Fundamental Research Funds for the Central Universities CUG160226

More Information
  • 摘要: 基于地域的移动模式(zone-based movement pattern,ZMP)的发掘通过对出租车轨迹的聚类分析,同步发掘地域与移动轨迹。该方法通过ZMP的合并达到新地域发掘的目的,并加以距离和专题属性组成的相邻约束以保留移动的方向性、地域的功能属性以及地域间的距离关系。通过连接矩阵迭代计算得到最优合并的ZMP进行合并,从而发掘ZMP,同时通过覆盖度、精准度以及基于这两者的平衡评估因子等对合并得到的ZMP进行评定。通过现实世界的出租车数据进行实验,结果表明该方法高效可行,能合理地实现合并现有区以发掘新地域。
    Abstract: We propose an integrated approach to discover both zones and movement trajectories among zones, which referred to as zone-based movement pattern (ZMP), from taxi trajectory data. This method discovers the zones by merging ZMPs, which keeps the directionality of movement, thematic attributes and distance relationship of zones by the adjacent constraints consists of distant and thematic attributes. By joint average frequencies, we can identify new ZMP by iteratively calculating the best candidate ZMPs to be merged then. In addition, evaluation measures of ZMP are suggested in terms of factors such as coverage, accuracy and a tradeoff of both them. The effectiveness of the proposed approach is demonstrated through a real-world data set obtained, the experiment result shows that the approach can merge the existing zones to discover new ZMP rationally.
  • 城市化发展使城市产生不同功能的区域, 发掘并理解功能区域和人类移动规律可制定更好的城市规划便利人类生活[1]。Fusco等[2]将地域定义为地理上有相邻关系的站点,本文在此基础上定义基于地域的移动模式(zone-based movement pattern, ZMP)为一种移动轨迹及该轨迹关联的一对地域——起始地域O和目的地域D,任意ZMP p表示为p=OD。对ZMP的发掘即可达到对地域和移动模式的双重发掘。随着GPS技术的快速发展,车辆的移动记录更容易获取,因此被广泛应用于交通[3-4]、人类活动[5]分析等。本文利用出租车GPS数据对城市居民的出行移动路径进行分析,根据乘客移动轨迹的分布与特征得到地域之间的关系,从而实现对ZMP的发掘。

    目前对移动轨迹的研究有如下几点:①针对城市区域中特定地域间的运动方式的挖掘,如通过基于动态规划和基因算法的方法分析特定区域间的活动模式[6];②通过移动数据进行行为分析,如通过结合空间特征和社会经济学特征的模型分析家庭的旅行模式[7],通过乘客的乘车记录定性分析乘客的搭乘行为[8]等。此外,移动模式的分析还可通过不同领域的数据进行分析[9],如通过智能卡数据评估未来的公共交通情况[10-11]。而在地域的发掘方面,普通的空间聚类方法如K-means[12]、BIRCH[13]等已发展完善,由此产生基于普通空间算法的改进算法,如基因算法[14]、基于层次结合Voronoi的空间聚类算法[15]等。此外,部分方法将聚类方法与约束方法相结合,如通过变化的人口普查数据进行区域的划分[16],通过离散的Voronoi图结合位置关系和种子权重进行区域的划分[17]等。

    以上方法在同时发掘地域和移动轨迹时仍具有一定的局限性。Kim等[18]开创性地提出了一种通过地铁搭乘记录同时发掘地域及乘客移动模式的方法。但该方法只考虑了空间关系而忽略了属性关系,这将产生有失实际的结果,如将距离很近但功能性质相差较远的地域当成相似类地域进行合并。且地铁只能在固定路线行驶,这导致该方法使用范围受限。相较地铁,出租车可从任意出发点行驶到任意目的点,为研究人类移动动态提供更独特的视窗[3]。因此本文在此研究基础上提出一种通过出租车轨迹发掘基于地域的移动模式的方法,它通过空间和属性特征的双重约束,保证了地域间的无重复性,使发掘的ZMP关联的地域的功能更集中,为使用者提供更有力的决策选择。

    本文方法基于聚类分析迭代的合并同一等级的相似实体,通过ZMP的合并实现保留移动方向性前提下的ZMP发掘,达到发掘地域和移动模式的目的。距离和专题属性组成的相邻约束保证了地域专题属性和地域间距离关系的相近性。如图 1所示, ZMP的发掘是通过连接矩阵进行迭代的过程,连接矩阵的元素表征所有ZMP间合并的可能程度,选出最大值后检查其是否满足迭代停止条件,若不满足,则将最大值对应的两个ZMP进行合并并更新连接矩阵,否则返回当前ZMP结果。在了解具体方法前,先介绍数据预处理及与方法相关的概念定义。

    图  1  ZMP发掘的基本流程
    Figure  1.  The Process of Discovering ZMP

    GPS数据源包含大量冗余的信息,需筛选出正确有用的信息,并进行格式编辑,以在发掘算法中被高效利用。预处理主要包括如图 2所示的4个步骤。

    图  2  数据预处理流程
    Figure  2.  Flow Chart of Data Preprocessing

    第1步:GPS数据的筛选包括两方面:①剔除错误和无用的GPS记录,如点范围不合理、非载客状态、非上下客状态时以及重复和不全的记录,仅保留正确的上下客点记录;②每条GPS记录仅保留有用的经纬度值、载客状态等项目。第2步:需确定站点,出租车没有固定的停靠点,GPS点数据是随机分散的,可借助站点进行移动模式确认工作。类似地域的定义,本文将站点定义为地理上有相邻关系的点的聚类结果点,可通过所有上下客点聚类得到站点数据。K-means是一种广泛使用的简单快速的基本聚类方法,经过上步筛选后的GPS点数据基本无噪声,因此本文通过K-means对GPS点聚类得到站点,每个上下客点都有一个隶属站点。第3步:确定移动轨迹记录,乘客的移动情况只需通过起始点和目的点反映,一条上客点记录和一条下客点记录即可组成一条移动记录。更新移动记录的起始点和目的点为其隶属的站点, 则得到最终的移动记录。此外需剔除起始站点和目的站点相同的移动记录,在某种意义上它表示乘客没有移动。第4步:对移动记录数据分类以获取不同移动模式,将起始站点相同且目的站点相同的移动记录归为一类移动模式,并统计该类移动模式中移动记录的数目。

    本文相邻约束实现几何和属性的双重约束。几何约束主要通过Delaunay三角网与Voronoi图[19]实现,即一个实体只与其直接Delaunay相邻实体间有较为明显的作用。本文定义一个实体与它的Delaunay相邻实体的邻接值g与它们之间的空间距离的平方成反比;而对于Delaunay相邻实体之外的对象,g迅速衰减到可以忽略的程度。

    $$ g\left( {p,q} \right) = k\frac{1}{{{d_E}{{\left( {p,q} \right)}^2}}},k = \left\{ \begin{array}{l} 1,q \in {N_p}\\ 0,q \notin {N_p} \end{array} \right. $$ (1)

    式中,dE(p, q)表示实体p与其他实体q间的空间距离;k为邻近标志;Np表示与实体p的Delaunay相邻的实体集合。

    但实体分布较分散时距离相隔很远的实体也可能是Delaunay相邻的,这可能导致此类实体的合并。因此需加入空间距离进一步约束,仅当两个实体Delaunay相邻且两者间的空间距离dE不超过阈值δ时才是几何相邻的。从而g值表示为:

    $$ \begin{array}{*{20}{c}} {g\left( {p,q} \right) = \frac{k}{{{{d'}_E}{{\left( {p,q} \right)}^2}}},}\\ {k = \left\{ \begin{array}{l} 1,q \in {N_p}\;且\;{d_E}\left( {p,q} \right) \le \delta \\ 0,q \notin {N_p}\;或\;{d_E}\left( {p,q} \right) > \delta \end{array} \right.} \end{array} $$ (2)

    式中,Np表示实体p的几何相邻实体的集合; d′E(p, q)是dE(p, q)归一化结果。

    属性约束通过专题属性实现。即将空间属性与专题属性归一化后分别计算空间距离与专题属性距离,再进行加权融合即得到相邻距离DE, 表达式为:

    $$ \begin{array}{*{20}{c}} {{D_E}\left( {p,q} \right) = {w_1}\sqrt {{{\left( {{x_p} - {x_q}} \right)}^2} + {{\left( {{y_p} - {y_q}} \right)}^2}} + }\\ {{w_2}\sqrt {\sum\limits_{k = 1}^n {\left( {{A_{pk}} - {A_{qk}}} \right)} } } \end{array} $$ (3)

    式中,Apk表示实体p的第k维专题属性值; w1w2表示几何约束与属性约束的权值,默认情况为w1=w2=0.5。

    通过DE替代式(2)中的d′E得到两个实体的最终g值为:

    $$ \begin{array}{*{20}{c}} {g\left( {p,q} \right) = k\frac{1}{{{D_E}{{\left( {p,q} \right)}^2}}},}\\ {k = \left\{ \begin{array}{l} 1,q \in {N_p}\;且\;{d_E}\left( {p,q} \right) \le \delta \\ 0,q \notin {N_p}\;或\;{d_E}\left( {p,q} \right) > \delta \end{array} \right.} \end{array} $$ (4)

    给定N个站点的集合S={s1sN},则有如下定义。

    定义1  地域zi是由一个或若干站点组成的,即zi={sisk}(1≤ikN)。不同地域不包含相同的站点,即对任意地域zizj(ij)都有spsq(spzi, sqzj)。任意站点可看作单地域,即由单个站点组成的地域。

    定义2  两个地域间的邻接值为两个地域zizj中站点间邻接值的平均值:

    $$ g\left( {{z_i},{z_j}} \right) = \frac{{\sum {g\left( {{s_p},{s_q}} \right)} }}{n},{s_p} \in {z_i},{s_q} \in {z_j} $$ (5)

    式中,g(sp, sq)为站点sp和站点sq间的邻接值;nzizj中站点对的数目。

    定义3  地域zi的属性平均值$\overline {A\left( {{z_i}} \right)} $为该地域中所有站点的属性的平均值:

    $$ \overline {A\left( {{z_i}} \right)} = \frac{{\sum\limits_{i = 1}^n {A\left( {{s_p}} \right)} }}{n},{s_p} \in {z_i} $$ (6)

    式中,A(sp)为站点sp归一化后的专题属性值;n为地域zi中的站点数目。

    定义4  地域zizj间的相邻系数为邻接值与专题属性平均值差异的比值,记为G(zi, zj):

    $$ G\left( {{z_i},{z_j}} \right) = \frac{{g\left( {{z_i},{z_j}} \right)}}{{\left| {\overline {A\left( {{z_i}} \right)} - \overline {A\left( {{z_j}} \right)} } \right|}} $$ (7)

    G(zi, zj)值越大, 表明地域zizj空间距离越小, 属性越接近,反之亦然。

    定义5  地域zizj是相邻的, 当且仅当G(zi, zj)≥γ成立,否则不相邻。γ为地域合并最小值,只有相邻的地域才可能合并。

    在以上地域的定义的基础上,对ZMP可定义为:已知初始状态下包含有N1个地域的集合Z={z1zN1}关联了N2种ZMP,可表示为ZMP集M={m1mN2},其中mk=z0zd(1≤kN2, z0Z, zdZz0zd)。通过该ZMP集M迭代发掘到的第i种ZMP为:pi=OiDi(OiZ, DiZOiDi)。

    定义6  对ZMP pi=OiDipj=OjDj,若OiOj相邻且DiDj相邻,则这两个ZMP相邻。

    定义7  两个ZMP pi=OiDipj=OjDj间的连接值为两者的起始地域的合并地域中站点到目的地域的合并地域站点的平均数目[18]

    $$ \begin{array}{*{20}{c}} {{\rho _{i,j}} = \rho \left( {{p_i},{p_j}} \right) = k\frac{{n\left( {{O_i} \cup {O_j} \to {D_i} \cup {D_j}} \right)}}{{\left| {{O_i} \cup {O_j}} \right| \cdot \left| {{D_i} \cup {D_j}} \right|}},}\\ {k = \left\{ \begin{array}{l} 1,{p_j} \in {N_{{p_i}}}\\ 0,{p_j} \notin {N_{{p_i}}} \end{array} \right.} \end{array} $$ (8)

    式中,n(OiOjDiDj)表示从合并起始地域OiOj到合并目的地域DiDj的移动数目;Npipi相邻的ZMP集合。两种相邻的ZMP覆盖的轨迹数目越多,关联的站点越少,ρi, j就越大,两者越可能合并。且根据定义有ρi, j=ρj, i

    定义8   已知两个ZMP pi=OiDipj=OjDj,定义两者合并得到的新ZMP为:

    $$ {p_t} = {Q_t} \to {D_t}\left( {{O_t} = {O_i} \cup {O_j},{D_t} = {D_i} \cup {D_j}} \right) $$ (9)

    定义9  已知ZMP pi=OiDipj=OjDj,若OjOiDjDi, 则pjpi的子集。

    定义10  已知ZMP pi=OiDipj=OjDj,若Oi=OjDjDi=OjDj,则pjpi的子集。子集解决不同地域出现相同站点的问题,使得新发掘的地域无交叠,更易理解。

    通过式(8)可构建表示ZMP集中任意ZMP间连接值的连接矩阵。由于pi, j=pj, i,可采用上三角连接矩阵表示MN2个ZMP间的连接值:

    $$ \mathit{\boldsymbol{C}} = \left( {\begin{array}{*{20}{c}} 0&{{\rho _{1,2}}}& \cdots &{{\rho _{1,{N_2} - 1}}}&{{\rho _{1,{N_2}}}}\\ 0&0& \cdots &{{\rho _{2,{N_2} - 1}}}&{{\rho _{2,{N_2}}}}\\ \vdots&\vdots&\ddots&\vdots&\vdots \\ 0&0& \cdots &0&{{\rho _{{N_2} - 1,{N_2}}}}\\ 0&0& \cdots &0&0 \end{array}} \right) $$ (10)

    新ZMP的发掘算法通过连接矩阵C获取当前迭代中最优合并的两个ZMP。整体流程如下:

    在初始化阶段,将每个站点初始化为单地域得到地域集Z,移动模式初始化为ZMP得到ZMP集M,则可得初始连接矩阵C(1);第k次迭代时对当前M包含的Rk条ZMP计算连接矩阵C(k),将矩阵最大元素ρ*(k)=max(ρi, j(k))(i, j=1…Rkij)关联的两个ZMP合并成新ZMP pt,在剩余ZMP中找到pt的子集合并到pt,M将移除所有合并入pt的ZMP并加入新ZMP pt,同时移除的ZMP关联的地域会从Z中移除,而pt关联的两个新地域将被加入。此外,pt的自集关联的两个地域在更新关联地域后同属一个,需从M中移除。一次迭代后,M中会减少至少2个ZMP,新增1个A类ZMP,有若干C类ZMP可能更新为B类ZMP。更新完ZM及连接矩阵后继续下一次迭代,直到剩余的ZMP不能合并或连接矩阵中的最大值比阈值θ小,停止迭代,将M返回得到最终结果。

    本文将类似pt这样由其他ZMP合并成的新ZMP记为A类ZMP。若被移除的地域在M中仍有其他关联的ZMP,则需用其所属的新地域更新这些ZMP的关联地域,本文记这类与新地域关联但不是新合成的ZMP为B类ZMP,剩下与新地域无关联的ZMP记为C类ZMP,三类ZMP的区别如表 1所示。

    表  1  三类ZMP的区别
    Table  1.  Difference of Three Trpes of ZMP
    条件A类B类C类
    由两个ZMP合并成××
    关联地域中有新地域×
    下载: 导出CSV 
    | 显示表格

    本文采用北京市连续3天的出租车GPS数据。筛选后得到195 622条移动轨迹记录,覆盖了391 244个上下客站点(见图 3(a))。通过K-means对其初聚类得到站点数据,K值决定了初始地域的粒度,继而影响最终结果地域的粒度,K值越大, 产生的新地域的覆盖范围越小、越精细,根据不同的数据及需求可选择不同的K值。本文以中粒度100个站点为例进行实验(见图 3(b)),本文专题属性采用不同类型的兴趣点在北京的分布来表示(见图 3(c)图 3(d)),选取的5种类型的兴趣点分别为购物点、教育点、景点、企业点和居民区。这与人类的日常生活关联较为紧密,因此足够表达出城市的不同的功能,本文兴趣点数据来源于百度地图。

    图  3  实验数据成图
    Figure  3.  Visualization of the Data

    图 4(a)是100个站点间的Voronoi图,图中的数字是相应站点的标识码,由此可推断站点间Delaunay相邻关系。对195 622条移动记录分类,并去掉起始站点与目的站点相同的记录,得到674种移动模式共覆盖182 519条移动轨迹。对移动模式覆盖的移动记录数目的统计结果如图 4(b)所示,横、纵坐标分别为起始和目的站点标识码,站点标志码从0增到100,图中格子颜色越深,表示移动数目越多,其能反映更多人的活动轨迹,会优先被用到算法中。但该图中浅色占大部分,这类移动轨迹数目较少的移动模式在发掘算法中大部分是不被用到的,去掉这部分移动模式可减少算法的计算和时间耗费,并消除噪声。本文以去掉移动数目小于100的移动模式为例进行实验,经筛选后剩余336种移动模式共覆盖48 644条移动轨迹。将每个站点初始化单地域,则336种移动模式可全部初始化C类ZMP进行后续发掘。

    图  4  100个站点间的关系
    Figure  4.  Relation Between the 100 Stations

    为定量评估新产生的ZMP和地域,本文采用3种评估值[30]:评估覆盖度的v值、评估精准度的a值和对前两者折中评估的c值。如对ZMP pi=OiDi的评估方法如式(11)所示。

    $$ \left\{ \begin{array}{l} v\left( {{p_i}} \right) = r\left( {{O_i} \to {D_i}} \right) = \frac{{n\left( {{O_i} \to {D_i}} \right)}}{m}\\ a\left( {{p_i}} \right) = \frac{{r\left( {{O_i} \to {D_i}} \right)}}{{r\left( {{O_i} \to D.} \right) \cdot r\left( {O. \to {D_i}} \right)}} = \\ \;\;\;\;\;\;\;\;\;\;\frac{{mn\left( {{O_i} \to {D_i}} \right)}}{{n\left( {{O_i} \to D.} \right) \cdot n\left( {O. \to {D_i}} \right)}}\\ c\left( {{p_i}} \right) = \sqrt {v\left( {{p_i}} \right)a\left( {{p_i}} \right)} = \\ \;\;\;\;\;\;\;\;\;\;\frac{{n\left( {{O_i} \to {D_i}} \right)}}{{\sqrt {n\left( {{O_i} \to D.} \right) \cdot n\left( {O. \to {D_i}} \right)} }} \end{array} \right. $$ (11)

    其中,r(OiDi)、r(O·Di)、r(OiD·)依次为从OiDi的移动轨迹数目比例、以Di为目的地域的移动轨迹数目比例、以Oi为起始地域的移动轨迹数目的比例;n(OiDi)是从OiDi移动轨迹数目;m是移动轨迹的总数目。v值通过ZMP覆盖的移动轨迹数目计算,v值越高,则相应ZMP的关联地域间的联系更紧密;a值通过ZMP关联的起始地域和目的地域的独立度计算,其暗示关联的两个地域间有内在联系;c值是覆盖度和准确度的平衡,它可挖掘到性能较好但不易发现的隐藏ZMP。

    地域合并最小值γ的影响将在后文详细描述。本文以γ=10为例,使算法迭代到没有可合并的ZMP为止,最终共迭代了19次后返回最终结果。图 5(a)-5(d)依次是第5、10、15、19次迭代后产生的A类ZMP关联的新地域。

    图  5  迭代中产生的新地域
    Figure  5.  Newly Discovered Zones in Iteration

    最终ZMP集中有238个ZMP,包含14个A类ZMP(见图 6),124个B类ZMP以及100个C类ZMP。最终结果产生了13个新地域(见表 2)。

    图  6  新发掘的A类ZMP
    Figure  6.  Newly Discovered A Type ZMP
    表  2  新地域
    Table  2.  Newly Discovered Zones
    地域组成站点
    z195,83,78
    z253,34
    z322,11,1
    z413,2
    z582,80
    z633,27
    z754,24
    z852,43,37
    z940,28,3
    z1051,42,30
    z1196,39
    z1276,69
    z1321,19,8
    下载: 导出CSV 
    | 显示表格

    为评估238个ZMP,分别计算3类ZMP的v值、a值、c值的平均值,并与336个初始ZMP和238个结果ZMP的总体平均值对比。图 7(a)是平均v值的对比结果,可发现A类ZMP>B类ZMP>C类ZMP,即发掘的新地域关联的ZMP(A、B类ZMP的并集)相较普通ZMP有较好的覆盖度;同时结果ZMP相比初始ZMP,平均v值有很大提升,从侧面反映出发掘的新ZMP有较大的覆盖度。图 7(b)图 7(c)是平均a值和平均c值的对比结果,与平均v值结果相同,即A类ZMP不论在覆盖度、精准度还是两者折中的评估标准上都有最好的评估结果,B类ZMP次之,且都优于C类ZMP以及未经处理的初始ZMP。由此反映算法发掘到的新ZMP相较其他ZMP有更优的性能。

    图  7  平均v值、a值、c值对比
    Figure  7.  Comparison of the Average v, a, c Values

    为研究γ值影响,固定迭代次数为15次,改变γ值,变化如表 3所示。随着γ的增大,新地域的数目先从5增加到11后减小至0,参与合并新地域的初始地域数目也有相同的变化趋势,而新地域中的最大地域(组成地域数目最多的地域)组成的地域数目却一直在减少。当γ较小时如γ∈[0, 1]时,更多地域间的相邻系数满足G>γ,导致更多地域被合并到同一新地域中,从而产生的新地域不多,且更多次迭代耗费在合并初始地域与另一新地域而非两个初始地域上,因此参与合并的初始地域总数增势缓慢;当γ在[1, 5),满足G>γ的地域对的数目逐渐减小,更多地产生由初始地域两两合成的新地域,新地域数目增幅明显。同理,更多次迭代会耗费在将合并两个初始地域上,参与合并的初始地域总数随之增多,直到γ=5达到最大。当γ继续增大,满足G>γ的地域对数目剧烈减少,各项指标也随之降低,直到γ=220时已无满足G>γ的地域对可合并,几项指标也随之降到0。

    表  3  γ值对产生的新地域的影响
    Table  3.  Influence of γ on the Newly Discovered Zone
    地域γ值
    00.1151020304050200220
    新地域5561110943220
    参与合并初始地域20202126251886420
    最大地域组成地域1211943222210
    下载: 导出CSV 
    | 显示表格

    表 4为不同γ值下的结果ZMP的c值评估。γ≥220时不会产生新ZMP,因此不对该范围讨论。随着γ的增大,C类ZMP平均的c值与结果ZMP的平均c值基本持平,A类、B类ZMP的平均c值大体呈下降的趋势,但一直都高于初始ZMP的平均c值,证明通过该算法可在初始ZMP中发掘到性能优良的隐藏ZMP。且不论γ为何值,都有A类ZMP >B类ZMP >C类ZMP,即算法发掘的新地域关联的ZMP的c值优于普通ZMP,反映出该算法在多种条件下都能发掘当前较优的ZMP和地域。

    表  4  γ值对c值的影响
    Table  4.  Influence of γ on c Value
    ZMPγ值
    00.1151020304050200220
    A类ZMP0.346 80.332 80.295 80.218 10.238 90.202 40.172 30.178 60.193 60.168 9-
    B类ZMP0.142 60.139 00.137 10.138 80.136 70.142 20.130 10.145 50.151 40.135 9-
    C类ZMP0.098 00.104 60.112 10.133 90.122 30.111 80.091 40.086 80.083 00.080 3-
    结果ZMP0.103 60.109 90.118 10.138 50.127 50.114 60.092 40.087 60.083 70.080 6-
    初始ZMP0.076 7-
    下载: 导出CSV 
    | 显示表格

    本文研究了基于出租车乘车记录的ZMP的发掘即移动模式和地域的双重发掘。通过从出租车轨迹数据筛选出有用的数据来达到同时确认地域和地域之间的移动模式的目的,并以北京出租车数据为例进行了模型验证分析,实验结果显示,本文方法在发掘ZMP上能得到满意的结果,新发掘到的移动模式与其关联地的地域将有助于决策者更好地理解地域的存在以及这些地域之间的关系。下一步的工作将比较预处理中不同聚类算法对ZMP发掘的影响,同时会考虑采纳更多属性因素以及对连接矩阵的迭代算法进一步优化,以提高新发掘的ZMP的性能与分析效率。

  • 图  1   ZMP发掘的基本流程

    Figure  1.   The Process of Discovering ZMP

    图  2   数据预处理流程

    Figure  2.   Flow Chart of Data Preprocessing

    图  3   实验数据成图

    Figure  3.   Visualization of the Data

    图  4   100个站点间的关系

    Figure  4.   Relation Between the 100 Stations

    图  5   迭代中产生的新地域

    Figure  5.   Newly Discovered Zones in Iteration

    图  6   新发掘的A类ZMP

    Figure  6.   Newly Discovered A Type ZMP

    图  7   平均v值、a值、c值对比

    Figure  7.   Comparison of the Average v, a, c Values

    表  1   三类ZMP的区别

    Table  1   Difference of Three Trpes of ZMP

    条件A类B类C类
    由两个ZMP合并成××
    关联地域中有新地域×
    下载: 导出CSV

    表  2   新地域

    Table  2   Newly Discovered Zones

    地域组成站点
    z195,83,78
    z253,34
    z322,11,1
    z413,2
    z582,80
    z633,27
    z754,24
    z852,43,37
    z940,28,3
    z1051,42,30
    z1196,39
    z1276,69
    z1321,19,8
    下载: 导出CSV

    表  3   γ值对产生的新地域的影响

    Table  3   Influence of γ on the Newly Discovered Zone

    地域γ值
    00.1151020304050200220
    新地域5561110943220
    参与合并初始地域20202126251886420
    最大地域组成地域1211943222210
    下载: 导出CSV

    表  4   γ值对c值的影响

    Table  4   Influence of γ on c Value

    ZMPγ值
    00.1151020304050200220
    A类ZMP0.346 80.332 80.295 80.218 10.238 90.202 40.172 30.178 60.193 60.168 9-
    B类ZMP0.142 60.139 00.137 10.138 80.136 70.142 20.130 10.145 50.151 40.135 9-
    C类ZMP0.098 00.104 60.112 10.133 90.122 30.111 80.091 40.086 80.083 00.080 3-
    结果ZMP0.103 60.109 90.118 10.138 50.127 50.114 60.092 40.087 60.083 70.080 6-
    初始ZMP0.076 7-
    下载: 导出CSV
  • [1]

    Qi G, Li X, Li S, et al. Measuring Social Functions of City Regions from Large-Scale Taxi Behaviors[C]. IEEE International Conference on Pervasive Computing and Communications, Seattle, USA, 2011

    [2]

    Fusco G, Caglioni M. Hierarchical Clustering Through Spatial Interaction Data. The Case of Commuting Flows in South-Eastern France[C]. International Conference on Computational Science and Its Applications, Santander, Spain, 2011

    [3]

    Castro P S, Zhang D, Chen C, et al. From Taxi GPS Traces to Social and Community Dynamics:A Survey[J]. ACM Computing Surveys, 2014, 46(2):1167-1182 https://www.researchgate.net/publication/236346821_From_Taxi_GPS_Traces_to_Social_and_Community_Dynamics_A_Survey

    [4] 任慧君, 许涛, 李响.利用车载GPS轨迹数据实现公交车驾驶安全性分析[J].武汉大学学报·信息科学版, 2014, 39(6):739-744 http://ch.whu.edu.cn/CN/Y2014/V39/I6/739

    Ren huiJun, Xu Tao, Li Xiang. Personal Profile Mining Based on Mobile Phone Location Data[J]. Geomatics and Information Science of Wuhan University, 2014, 39(6):739-744 http://ch.whu.edu.cn/CN/Y2014/V39/I6/739

    [5]

    Liu Y, Kang C, Gao S, et al. Understanding Intra-Urban Trip Patterns from Taxi Trajectory Data[J]. Journal of Geographical Systems, 2012, 14(4):463-483 doi: 10.1007/s10109-012-0166-z

    [6]

    Joh C H, Arentze T A, Timmermans H J P. Multidimensional Sequence Alignment Methods for Activity-Travel Pattern Analysis:A Comparison of Dynamic Programming and Genetic Algorithms[J]. Geographical Analysis, 2001, 33(3):247-270 doi: 10.1111/j.1538-4632.2001.tb00447.x/abstract

    [7]

    Srinivasan S, Ferreira J. Travel Behavior at the Household Level:Understanding Linkages with Residential Choice[J]. Transportation Research Part D:Transport and Environment, 2002, 7(3):225-242 doi: 10.1016/S1361-9209(01)00021-9

    [8]

    Hoffman M, Wilson S P, White P. Automated Identification of Linked Trips at Trip Level Using Electronic Fare Collection Data[C]. The Transportation Research Board 88th Annual Meeting, Washington D C, USA, 2009

    [9] 刘瑜, 康朝贵, 王法辉.大数据驱动的人类移动模式和模型研究[J].武汉大学学报·信息科学版, 2014, 39(6):660-666 http://ch.whu.edu.cn/CN/Y2014/V39/I6/660

    Liu Yu, Kang Chaogui, Wang Fahui. Towards Big Data-Driven Human Mobility Patterns and Models[J]. Geomatics and Information Science of Wuhan University, 2014, 39(6):660-666 http://ch.whu.edu.cn/CN/Y2014/V39/I6/660

    [10]

    Chu K K A, Chapleau R. Enriching Archived Smart Card Transaction Data for Transit Demand Mode-ling[J]. Transportation Research Record:Journal of the Transportation Research Board, 2008, 2063(1):63-72 doi: 10.3141/2063-08

    [11]

    Munizaga M A, Palma C. Estimation of a Disaggregate Multimodal Public Transport Origin-Destination Matrix from Passive Smartcard Data from Santiago, Chile[J]. Transportation Research Part C, 2012, 24(9):9-18 https://www.sciencedirect.com/science/article/pii/S0968090X12000095

    [12]

    Macqueen J. Some Methods for Classification and Analysis of Multivariate Observations[C]. The 5th Berkeley Symposium on Mathematical Statistics and Probability, Berkeley, USA, 1967

    [13]

    Zhang T, Ramakrishnan R, Livny M. BIRCH: An Efficient Data Clustering Method for very Large Databases[C]. The International Conference Management of Data, Montreal, Canada, 1996

    [14]

    Bação F, Lobo V, Painho M. Applying Genetic Algorithms to Zone Design[J]. Soft Computing, 2005, 9(5):341-348 doi: 10.1007/s00500-004-0413-4

    [15]

    Deng M, Liu Q, Li G, et al. Field-Theory based Spatial Clustering Method[J]. Journal of Remote Sensing, 2010, 14(4):702-717 http://d.old.wanfangdata.com.cn/Periodical/whchkjdxxb201803006

    [16]

    Martin D. Extending the Automated Zoning Procedure to Reconcile Incompatible Zoning Systems[J]. International Journal of Geographical Information Science, 2003, 17(2):181-196 doi: 10.1080/713811750

    [17]

    Moreno-Regidor P, Manso-Callejo M A. Zone Design of Specific Sizes Using Adaptive Additively Weighted Voronoi Diagrams[J]. International Journal of Geographical Information Science, 2012, 26(10):1811-1829 doi: 10.1080/13658816.2012.655742

    [18]

    Kim K, Oh K, Lee Y K, et al. An Analysis on Movement Patterns Between Zones Using Smart Card Data in Subway Networks[J]. International Journal of Geographical Information Science, 2014, 28(9):1781-1801 doi: 10.1080/13658816.2014.898768

    [19]

    Gold C M. Problems with Handling Spatial Data-The Voronoi Approach[J]. CISM Journal ACSGC, 1994, 45(1):65-80 https://www.researchgate.net/publication/239657474_Problems_with_handling_spatial_data-The_Voronoi_approach

  • 期刊类型引用(4)

    1. 孟妮娜,李金秋,高晨博,王正阳. 北京市出租车载客热点路段挖掘及分析. 测绘地理信息. 2023(01): 68-72 . 百度学术
    2. 郭名静,边少锋,单潮龙,熊鑫,曾立庆. 位置数据中的城市行业空间特征挖掘. 测绘科学. 2020(10): 127-134+142 . 百度学术
    3. 郭名静,熊鑫,戴雅婷. 抚州市行业高热区块空间分布特征聚类. 合作经济与科技. 2020(21): 30-33 . 百度学术
    4. 郭名静,边少锋,单潮龙,熊鑫. 面向多维时空位置数据的动态加权聚类模型. 测绘科学. 2019(11): 35-42 . 百度学术

    其他类型引用(5)

图(7)  /  表(4)
计量
  • 文章访问数:  1601
  • HTML全文浏览量:  235
  • PDF下载量:  327
  • 被引次数: 9
出版历程
  • 收稿日期:  2017-09-12
  • 发布日期:  2018-10-04

目录

/

返回文章
返回