留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

利用浮动车大数据进行稀疏路段行程时间推断

张发明 朱欣焰 呙维 胡涛

张发明, 朱欣焰, 呙维, 胡涛. 利用浮动车大数据进行稀疏路段行程时间推断[J]. 武汉大学学报 ● 信息科学版, 2017, 42(1): 56-62. doi: 10.13203/j.whugis20150425
引用本文: 张发明, 朱欣焰, 呙维, 胡涛. 利用浮动车大数据进行稀疏路段行程时间推断[J]. 武汉大学学报 ● 信息科学版, 2017, 42(1): 56-62. doi: 10.13203/j.whugis20150425
ZHANG Faming, ZHU Xinyan, GUO Wei, HU Tao. Sparse Link Travel Time Estimation Using Big Data of Floating Car[J]. Geomatics and Information Science of Wuhan University, 2017, 42(1): 56-62. doi: 10.13203/j.whugis20150425
Citation: ZHANG Faming, ZHU Xinyan, GUO Wei, HU Tao. Sparse Link Travel Time Estimation Using Big Data of Floating Car[J]. Geomatics and Information Science of Wuhan University, 2017, 42(1): 56-62. doi: 10.13203/j.whugis20150425

利用浮动车大数据进行稀疏路段行程时间推断

doi: 10.13203/j.whugis20150425
基金项目: 

国家863计划 2013AA122301

国家科技支撑计划 2012BAH35B03

详细信息
    作者简介:

    张发明, 博士生, 研究方向为交通GIS、机器学习、大数据挖掘和云计算等。zhang.fa.ming@163.com

    通讯作者: GUO Wei, associate professor. E-mail: guowei98032@gmail.com
  • 中图分类号: P208

Sparse Link Travel Time Estimation Using Big Data of Floating Car

Funds: 

The National 863 Program of China 2013AA122301

National Science and Technology Support Program 2012BAH35B03

图(6) / 表(1)
计量
  • 文章访问数:  1115
  • HTML全文浏览量:  95
  • PDF下载量:  506
  • 被引次数: 0
出版历程
  • 收稿日期:  2016-01-21
  • 刊出日期:  2017-01-05

利用浮动车大数据进行稀疏路段行程时间推断

doi: 10.13203/j.whugis20150425
    基金项目:

    国家863计划 2013AA122301

    国家科技支撑计划 2012BAH35B03

    作者简介:

    张发明, 博士生, 研究方向为交通GIS、机器学习、大数据挖掘和云计算等。zhang.fa.ming@163.com

    通讯作者: GUO Wei, associate professor. E-mail: guowei98032@gmail.com
  • 中图分类号: P208

摘要: 针对利用实时浮动车数据估计路段行程时间时存在的数据稀疏性问题,提出了构建三层神经网络模型,以目标路段与邻接路段间的特征关系为输入、目标路段与邻接路段行程时间比值为输出,利用浮动车历史大数据获取路段之间的交通时空关联关系,继而用于路段行程时间的推断。采用武汉市2014年3~7月的浮动车GPS历史数据进行验证,得到的路段行程时间估计值的平均绝对百分比误差小于25%,证明了所提方法的有效性。

English Abstract

张发明, 朱欣焰, 呙维, 胡涛. 利用浮动车大数据进行稀疏路段行程时间推断[J]. 武汉大学学报 ● 信息科学版, 2017, 42(1): 56-62. doi: 10.13203/j.whugis20150425
引用本文: 张发明, 朱欣焰, 呙维, 胡涛. 利用浮动车大数据进行稀疏路段行程时间推断[J]. 武汉大学学报 ● 信息科学版, 2017, 42(1): 56-62. doi: 10.13203/j.whugis20150425
ZHANG Faming, ZHU Xinyan, GUO Wei, HU Tao. Sparse Link Travel Time Estimation Using Big Data of Floating Car[J]. Geomatics and Information Science of Wuhan University, 2017, 42(1): 56-62. doi: 10.13203/j.whugis20150425
Citation: ZHANG Faming, ZHU Xinyan, GUO Wei, HU Tao. Sparse Link Travel Time Estimation Using Big Data of Floating Car[J]. Geomatics and Information Science of Wuhan University, 2017, 42(1): 56-62. doi: 10.13203/j.whugis20150425
  • 浮动车GPS接收器作为交通状态传感器,采集的信息包括实时速度、时间戳、经纬度坐标以及方位角等,一定程度上反映了城市交通的运行状态,对城市路网中路段实时或准实时行程时间的估计发挥着重要作用[1]。虽然浮动车的GPS轨迹数据巨大,但由于浮动车GPS采集信息的低频性以及行驶区域的局限性,在某些时刻,路网中某些路段存在GPS传感器数据稀疏甚至数据缺失的问题[2-3]。如何利用稀疏数据推断路段行程时间是一个亟待解决的问题。

    目前,已有许多基于模型的方法利用浮动车数据来估计路段行程时间,可大致分为卡尔曼滤波法、神经网络法、统计模型法等。文献[4]提出了在随机动态网络中估计路段行程时间的数学模型,并用卡尔曼滤波的方法估计未来时刻的路段行程时间。文献[5]提出了一个三层神经网络模型估计单车路段的行程时间。文献[6]提出了一个统计模型用于城市路网行程时间的估计。但是在数据稀疏情况下,上述方法已不能对路段的行程时间进行有效推断。针对数据稀疏性问题,半监督学习算法或转移学习算法[3]、矩阵分解算法和协同过滤[7]、基于相似性的聚类算法3种方法常用于解决空气质量分析[3]、城市油耗估计[7]等邻域存在的稀疏性问题。

    针对数据稀疏性问题,本文提出了基于目标路段与邻接路段交通时空关联关系特征的三层神经网络模型,从历史交通大数据中提取路段间的交通时空关联关系特征,并用该模型进行路段行程时间的推断。对每一个待推断目标路段,提取车辆进入路段时间,目标路段与邻接路段的度数比、长度比以及邻接路段速度期望、速度方差、交通流方向作为输入,目标路段与邻接路段的行程时间比作为输出,用神经网络模型对提取的特征进行训练,最后用训练的神经网络模型对路段行程时间进行推断。实验结果表明,本文提出的神经网络模型能够利用目标路段与邻接路段间的交通时空关联关系特征推断路段行程时间,解决由于浮动车GPS数据稀疏性而不能有效估计路段行程时间的问题。

    • 路段速度期望、速度标准差、路段度数、路段长度以及时刻与路段交通流特性密切相关,本文利用地图匹配算法[8-9]实现浮动车轨迹匹配,并考虑浮动车在交叉口的运行状态[10-11], 利用匹配数据计算浮动车通过路段的时间[12]与平均速度,最后提取目标路段和邻接路段之间的特征值。本文利用武汉市浮动车在2014年3~7月的历史GPS轨迹数据,统计浮动车在工作日(周一至周五,节假日除外)通过研究区域内路网各个路段的行程时间。已有的研究表明,浮动车以周为周期呈现出相似的通行模式[13-14],因此根据周期性并按照交通流方向[15](见图 1)提取目标路段与邻接路段的交通时空关联关系特征。图 1中黑色数字编码代表路段端点,路段上的编码代表路段编号,箭头上下方的+1,-1代表交通流方向。

      图  1  交通流示意图

      Figure 1.  Diagram of Traffic Flow

      1)路段交通特征。平均行车速度是交通流三要素之一,速度期望和速度标准差在一定程度上反映了路段的交通状况,目标路段和邻接路段间的这两个特征间存在一定的关联关系。假设半小时内路段交通状态没有显著变化,那么可以在同一时段每隔半小时从浮动车轨迹中提取反映路段和邻接路段交通状况的速度期望和速度标准差特征。本文定义以下变量:l代表路段长度,ti代表第i辆浮动车通过路段的行程时间,vi代表第i辆浮动车通过路段的平均速度。E(v)代表辆浮动车通过路段的速度期望,表示所有车辆在半小时内通过路段的速度。D(v)代表浮动车通过路段的速度标准差,反映了车辆通过路段速度的离散情况。

      $$ {v_i} = l/{t_i} $$ (1)
      $$ E\left( v \right) = \sum {\left( {{v_{i \cdot }}\frac{{{t_i}}}{{\sum {{t_i}} }}} \right)} $$ (2)
      $$ D\left( v \right) = \sqrt {\sum {\left( {{{\left[ {{v_i} - E\left( v \right)} \right]}^2}\frac{{{t_i}}}{{\sum {{t_i}} }}} \right)} } $$ (3)

      实验结果表明,目标路段82与邻接路段88周一至周五的速度期望呈现正相关关系。

      2)目标路段与邻接路段度数比特征。路段度数di为与路段两端点直接相连路段数之和,路段度数越大,则与该路段直接相连的路段越多,该路段的交通分流能力越强。因此, 根据式(4)提取目标路段与邻接路段度数比作为神经网络输入信息。

      $$ \Delta R{\left( d \right)_{mx}} = \frac{{{d_m}}}{{{d_x}}} $$ (4)

      其中,dm为目标路段度数;dx为邻接路段度数。

      3)目标路段与邻接路段长度比特征。目标路段长度、目标路段行程时间与邻接路段长度、邻接路段行程时间存在一定的关联关系,根据式(5)提取目标路段与邻接路段的长度比作为神经网络输入信息。

      $$ \Delta R{\left( l \right)_{mx}} = \frac{{{l_m}}}{{{l_x}}} $$ (5)

      式中,lm为目标路段长度;lx为邻接路段长数。

      4)路段时间特征。由于路段在不同时段的交通拥挤程度不同,并且路段交通以周为周期呈现出相似的通行模式[9-11],但天与天不同时段之间的交通同样存在差异性。因此,忽略周之间的差异性,体现天之间差异性,提取一周中哪一天以及一天中哪一时段两个时间作为神经网络输入信息。

      5)交通流方向特征。由于路段不同交通流方向的交通特性不同,并且邻接路段不同方向的交通流特性对目标路段交通特性也产生了不同影响[16-17],因此,提取邻接路段交通流方向作为神经网络输入信息。

    • 神经网络模型(artificial neural network, ANN)输入层神经元个数设计为7,输出层神经元个数设计为1,神经网络隐层数设计为1,反向传播(back propagation, BP)神经网络结构如图 2所示。

      图  2  BP神经网络模型结构图

      Figure 2.  Model Structure of BP Neural Network

    • $$ {\mathit{\boldsymbol{x}}_i} = \left[ {\begin{array}{*{20}{c}} {{t_{i,1}}}\\ {{t_{i,2}}}\\ {\Delta {R_i}\left( d \right)}\\ {\Delta {R_i}\left( l \right)}\\ {{E_i}\left( v \right)}\\ {{D_i}\left( v \right)}\\ {{O_i}} \end{array}} \right] $$ (6)

      式中,xi代表输入层第i个向量;ti, 1表示第i个向量中车辆通过邻接路段和目标路段为一周中的哪一天;ti, 2表示第i个向量中车辆通过邻接路段和目标路段为一天中的哪个半小时;ΔRi(d)表示第i个向量中目标路段与邻接路段度数比;ΔRi(l)表示第i个向量中目标路段与邻接路段长度比;Ei(v)表示第i个向量中邻接路段速度期望;Di(v)表示第i个向量中邻接路段速度标准差;Oi表示第i个向量中邻接路段交通流方向。所有特征值为同一时段内的特征值。因此,神经网络输入包括一周中哪一天、一天中哪一半小时、目标路段与邻接路段度数比、目标路段与邻接路段长度比、邻接路段速度期望、速度标准差和邻接路段交通流方向,输入层共有7个神经元。

    • $$ \mathit{\boldsymbol{H}}\left( i \right) = \left[ {\begin{array}{*{20}{c}} {{h_1}\left( i \right)}\\ \vdots \\ {{h_n}\left( i \right)} \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} {\varphi \left( {\sum\limits_{j = 1}^n {{\omega _{j,1}}{x_j}\left( i \right) + {b_1}} } \right)}\\ \vdots \\ {\varphi \left( {\sum\limits_{j = 1}^n {{\omega _{j,n}}{x_j}\left( i \right) + {b_n}} } \right)} \end{array}} \right] $$ (7)

      式中,hn(i)代表隐层第n个神经元的值;ωj,n代表输入层第j个神经元与隐层第n个神经元之间的链接权重;bn代表神经网络阈值;φ代表一个转换函数,转换函数选择S形函数。

    • $$ y\left( i \right) = \varphi \left( {\sum\limits_{k = 1}^n {{\omega _k}{h_k}\left( i \right) + b} } \right) $$ (8)

      式中,y(i)代表推断的浮动车在目标路段与邻接路段的行程时间比值;ωk代表隐层第k个神经元与输出层神经元的连接权重;b代表输出层的阈值;φ代表转换函数。

    • 本文选择武汉市路网的部分路网作为研究区域(见图 3),包括主干道武珞路、珞喻路、珞狮南路、雄楚大道,支路丁字桥路以及其他支路、小路,研究区域路网给出了每个路段的编号和名称。

      图  3  研究区域路网

      Figure 3.  Wuhan Road Network of Research Area

      利用单车路段行程时间计算算法,统计2014年3~7月间浮动车通过研究区域内路网的路段行程时间,获得的浮动车数据包括路段身份标识(identification, ID)、车辆进入路段端点编号、车辆驶出路段端点编号、浮动车ID、进入路段时刻、路段行程时间和车辆通过路段平均速度等信息。假设路段82为数据稀疏路段,以路段82以及邻接路段76、77、81、88为研究对象,从历史大数据中筛选路段82以及邻接路段工作日(周一至周五,去掉节假日)数据作为实验数据,根据通行模式的周期性将统计数据分别聚合为周一到周五的5组数据,按照交通流向(见图 1)剔除噪声数据并根据式(2)、(3)计算邻接路段的速度期望和速度标准差,提取目标路段与邻接路段的特征,总共提取不同时段的数据1 493条, 以此作为实验数据。

    • 在利用神经网络模型进行路段行程时间推断之前,神经网络模型的训练是必不可少的过程。将获得的整个数据集分成训练神经网络数据和评估数据两部分。其中,训练神经网络数据分成训练数据集、验证数据集和测试数据集,分别用于神经网络训练、验证和测试。训练数据集用于神经网络的训练,验证数据集用于防止神经网络出现“过拟合”现象,测试数据集则用于神经网络性能的测试,评估数据则用于验证神经网络模型的性能,数据集分割情况见表 1。神经网络的训练函数选择Levenberg-Marquardt算法,学习速率设置为0.01, 以保持神经网络的稳定。

      表 1  神经网络模型训练和评估数据集

      Table 1.  Training Dataset and Evaluation Dataset for ANN

      数据总量 ANN训练 ANN评估
      训练数据(百分比) 验证数据(百分比) 测试数据(百分比) 评估数据(百分比) RMSE MAPE
      15(1%) 23.02 s 16.85%
      1 493 956(64%) 149(10%) 149(10%) 75(5%) 23.04s 15.23%
      149(10%) 25.60s 14.27%
    • 为了评估神经网络模型的性能,引进两个性能指标:均方根误差(root mean square error,RMSE)和平均绝对百分比误差(mean absolute percentage error,MAPE)。

      $$ {\rm{RMSE = }}\sqrt {\frac{1}{n}\sum\limits_{i = 1}^n {{{\left( {{t_{f,i}} - {t_{{\rm{true,}}\mathit{i}}}} \right)}^2}} } $$ (9)
      $$ {\rm{MAPE = 100\% }} \times \frac{1}{n}\sum\limits_{i = 1}^n {\frac{{\left| {{t_{f,i}} - {t_{{\rm{true,}}\mathit{i}}}} \right|}}{{{t_{{\rm{true,}}\mathit{i}}}}}} $$ (10)

      式中,tf, i代表某时刻路段行程时间的预测值;ttrue, i代表某时刻路段行程时间的实际值。图 4中的结果表示在不同评估数据集情况下,基于同一BP神经网络(back propagation neural network, BPNN)推断的路段行程时间与实际行程时间之间的关系。图 4中,横坐标表示目标路段的实际行程时间,纵坐标表示目标路段的推断行程时间。线性相关系数R值表示实际路段行程时间与推断路段行程时间之间的相关性,R值越大,两者之间相关性越强。从图 4中可以看出,随着数据量的增大,R值有下降趋势,但仍有较好的推断效果。表 1列出了在不同数据量情况下衡量建立的BP神经网络模型估计路段行程时间的性能指标--均方根误差和平均绝对百分比误差的变化情况。表 1中结果表明,均方根误差随着数据量的增大有上升趋势,而平均绝对百分比误差却有下降趋势,平均绝对百分比误差小于20%。

      图  4  路段82实际行程时间与推断行程时间的相关性

      Figure 4.  Correlation of Link 82 Between True Link Travel Time and Estimated Link Travel Time

    • 本文将基于BPNN推断目标路段行程时间方法与基于邻接路段速度期望估计目标路段行程时间方法以及基于广义回归神经网络模型(generalized regression neural network, GRNN)的估计结果进行对比分析。如图 5所示,实验结果表明,在不同数据量情况下,BPNN模型的均方根误差和平均绝对百分比误差均优于GRNN模型和基于邻接路段速度期望方法的估计结果,而GRNN模型的估计结果优于基于邻接路段速度期望方法的估计结果。

      图  5  BPNN模型、GRNN模型和基于邻接路段速度期望估计目标路段行程时间的性能指标

      Figure 5.  Performance Measurements of Estimating Link Travel Time Based on BPNN, GRNN and Adjacent Link Speed Expectation

    • 神经网络模型的输入特征包括一周中的哪一天(F1)、一天中的哪一半小时(F2)、目标路段与邻接路段度数比(F3)、目标路段与邻接路段长度比(F4)、邻接路段速度期望(F5)、邻接路段速度标准差(F6)、邻接路段交通流方向(F7),但是否每一个特征在神经网络模型估计中都发挥作用仍需要验证。因此,本文对道路交通时空关联关系特征的敏感性进行分析。采用不同的输入特征构建神经网络模型,并用MAPE和均方根误差(mean squared error,MSE)衡量ANN模型的性能。

      1)模型A,输入特征包括F1F2F3F4F5F6F7

      2)模型B,输入特征包括F2F3F4F5F6F7

      3)模型C,输入特征包括F1F3F4F5F6F7

      4)模型D,输入特征包括F1F2F4F5F6F7

      5)模型E,输入特征包括F1F2F3F5F6F7

      6)模型F,输入特征包括F1F2F3F4F6F7

      7)模型G,输入特征包括F1F2F3F4F5F7

      8)模型H,输入特征包括F1F2F3F4F5F6

      图 6中的柱状图表示了在不同数据量情况下,不同输入信息对ANN模型性能的影响。图 6中可以看出,模型A总体上具有最好的估计结果,各个特征对估计结果有一定影响,其中邻接路段速度期望和交通流方向对模型估计精度有显著影响。

      图  6  不同输入信息对ANN模型性能的影响

      Figure 6.  Influence of Different Input Information on ANN Model

    • 浮动车的运行状态一定程度上反映了道路交通拥堵状态,因此,浮动车GPS数据可用于路段行程时间的推断。已有的研究大多在数据充足情况下对行程时间进行推断,然而在数据稀疏以及缺失情况下,现有方法不能有效地估计路段行程时间。而且,已有的研究大多基于仿真数据对目标路段行程时间进行估计,应用价值偏弱。本文首次提出了从浮动车大数据中提取目标路段与邻接路段道路交通特征的时空关联关系,并设计了三层神经网络模型对目标路段行程时间进行推断。实验结果表明,在数据稀疏的情况下,用该模型进行目标路段行程时间的推断。能得到较好的实验效果。本文现有的模型方法仍需进一步考虑其他因素比如天气、异常事件等对路段行程时间的影响,因此,后续研究需综合考虑这些因素的影响,以提高路段行程时间推断的准确度。同时,未来工作要解决由于数据稀疏而造成不能对区域性路网行程时间有效估计的问题。

参考文献 (17)

目录

    /

    返回文章
    返回