-
时空轨迹数据是位置大数据的重要组成部分,包含了海量的人类活动信息和交通信息[1-2]。如何利用这些数据并挖掘交通的行为特征成为重要的城市交通分析工作之一。一些特大型城市如深圳市,公交车自动售票(auto fare collection,AFC)系统和车载GPS设备积累了海量的公交刷卡数据和公交GPS数据。当数据完整性较好时,通过匹配乘客刷卡数据与GPS数据,可以较准确地得到乘客出行的上车站点。但由于大部分城市采取上车一票制,无法直接得到乘客下车站点,乘客的出行链和空间活动特点也无法得知,因此,高效地推断乘客下车站点成为研究乘客行为特征的关键。通过综合分析乘客上下车的行为特征,对交通的需求与服务进行分析和判断,可为乘客的出行选择和决策者的规划设计提供重要的参考依据。
Barry等[3]、Zhao[4]、陈君[5]基于出行链思想,利用AFC、自动车辆定位系统(automatic vehicle location,AVL),实现包含地铁-公交换乘等方式的下车站点推导。王超[6]基于站点吸引权方法得到单条公交出行(origination and destination, OD)矩阵。徐建闽等[7]以单个乘客的出行链闭合为基础,分析判断乘客下车站点,选取对象并不具代表性。以分析乘客出行链为基础,结合乘客刷卡高频点和站点吸引权研究大数据下的乘客下车站点推断的研究较少。
本文基于深圳市公交车AFC和GPS数据,首先利用时间匹配和密度聚类的方法确定乘客上车站点。其次分析乘客出行链行为,引入公交出行节的概念,将不同的出行归纳为公交出行节连续和断裂两种模式。对于公交出行节断裂,结合乘客刷卡高频站点的频次和公交路线下游各站点吸引权,判别出行节断裂时乘客下车站点的可能性,并设计推断算法。最后根据判别结果点与实际下车站点的距离和判别难易权重对计算结果进行有效性检验和评分。
-
由于集成电路(integrated circuit, IC)卡AFC数据缺少上车刷卡站点位置,无法对乘客的行为特征进行分析,因此为判断乘客出行下车点的行为特征,需先计算和识别乘客上车站点位置。刷卡位置必然在公交站点附近,利用刷卡时间和公交GPS时间关联匹配,确定乘客的近似上车位置;再根据上车点密度进行聚类,寻找更加精确的公交站点位置。
-
由于技术原因,深圳市公交IC卡系统和GPS系统记录的时间存在基准差异,IC卡数据可能存在过早或过晚于GPS时间的数据,以至于数据匹配时丢失,如图 1所示,因此计算前需要对时间数据进行修正。
假设一个修正时间差为Δt:
$$ \Delta t = {T_{{\rm{GPS}}}}-{T_{{\rm{IC}}}} $$ (1) 式中,TGPS为GPS时间;TIC为IC卡记录时间。通过不断假设和尝试判断Δt,当站点识别度最高时,即认为对应的时间差为此线路最优系统时间差,并以GPS时间为基准对IC卡时间进行修正。
-
深圳市公交IC卡AFC数据中包含乘客身份(identity, ID)号码、刷卡时间及车辆编号;GPS数据包含时间、经纬度、车辆编号及乘车线路。
-
识别乘客上车站点位置时,需要对AFC数据匹配刷卡时的坐标。但由于已有数据缺少准确的站点坐标数据,因此本文利用乘客在站点的刷卡时间与车辆到站时间的一致性,进行时间信息关联匹配推断公交站的站点坐标。与刷卡时间最为接近的GPS数据为上车站点的数据:
$$ \Delta {t_{{\rm{in}}}} = {\rm{min}}\left| {{T_{{A_i}}}-{T_{{G_i}}}} \right| $$ (2) 式中,Δtin为某乘客在第i条线路上车刷卡时间与GPS在第i条线路上记录的时间的最短时间距离; TAi为某乘客在第i条线路的刷卡时间; TGi为GPS在第i条线路上记录的所有时间。两个数据的时间匹配过程如图 2所示,经过数据预处理和时间匹配后可得到乘客上车近似站点。
-
通过时间匹配后的刷卡上车点都附有与之时间距离最近的公交GPS点的坐标, 但是大量的刷卡点对于站点的判断是模糊的、近似的,为了更加精确地判定公交站点位置,本文对时间匹配后的刷卡点进行密度聚类。
密度聚类是通过寻找被低密度区域分离的高密度区域的一种聚类方法。而基于带噪声空间密度聚类(density-based spatial clustering of applications with noise,DBSCAN)算法是一种根据数据分布密度来发现稠密区域的聚类算法,所以本文采用此算法对刷卡点进行密度聚类。
聚类半径(Eps)不同,一个站点周围密度聚类后的核心点数目也不同,可能为一个或多个,其原理和结果如图 3所示。图 3中A1、A2和A3为根据密度聚类的核心点,即对实际站点P的推测点,P为实际站点。密度聚类后刷卡数据由14个点缩减为3个,缩小了数据量并且提高了精度。扩大聚类半径,也可使数据核心点缩减为1个。可见,密度聚类可以更加精确地对站点进行判断,减少召回率。
-
乘客出行链可能情况总结为4种,如图 4所示,P表示公交站点。
1) 情况1。乘客1天或多天的出行是连续的,形成出行闭环,即从某地出发,经过换乘或者无换乘到达某地后,经过一段时间,又从此地返回原来的出发点,例如,上班、上学等规律出行。这种出行也是出行中最频繁的。
2) 情况2。乘客1天或多天的出行部分是连续的,形成半闭环,即从某地出发,乘坐公交过程中经历交通方式的转换,采用非公交的形式;但在一定时间内,又乘坐公交返回出发地。
3) 情况3。乘客1天或多天的出行仅半程是连续的。
4) 情况4。乘客多天的出行是随机的,不形成闭环。即从某地出发,乘坐公交一次后采用其他交通方式,或者并不返回等各种随机出行。
对于不同种类的出行链,每两次刷卡之间的链接方式即出行节有两种。本文定义出行链当中两个连续刷公交卡点的链接为一个公交出行节,包括出行节连续的上下车站(M1、M2)和出行节断裂的上下车站(M3、M4),如图 5所示。
对乘客一段时间的刷卡记录的地点和次数进行频次统计, 得到乘客高频站点频次。计算时用乘客记录的各站点的刷卡次数除以总的刷卡次数,具体公式为:
$$ {p_1} = \left\{ \begin{array}{l} 1, i = 1\\ {N_i}/\sum\limits_{n = 1}^i {{N_n}}, \;i > 1 \end{array} \right. $$ (3) 式中,i为高频点的个数;Ni为乘客一段时间记录中刷卡地点i的刷卡次数;p1为高频点的吸引权(频次)。
站点下车吸引权是指用一条线路上的各站点乘客上车人数的多少表示此站点对乘客下车的吸引力度。计算时用一条线路站点的上车人数除以此趟线路总的上车人数:
$$ {p_2} = {\rm{ }}\frac{{{K_j}}}{{\sum\limits_{p = 1}^n {{K_p}} }} $$ (4) 式中,p2为站点下车吸引权;Kj为站点j该趟车次的上车人数;n为站点个数。
M1:如果下次刷卡和上次刷卡为同一线路且位于下游,那么认为上次乘车的下车站点为下次乘车的上车站点。
M2:如果下次刷卡和上次刷卡为不同线路但位于上次线路下游的附近,那么仍然认为出行节没有断裂,上次乘车的下车站点为下次乘车的上车站点。
M3:如果下次刷卡和上次刷卡为不同线路且不位于下游附近,而且此次刷卡站点下游有该乘客的高频刷卡点, 根据高频站点确定下车站点的可能性,也称之为经验出行。
M4:如果下次刷卡和上次刷卡为不同路线且不位于下游附近,且高频站点集为空,那么根据乘坐线路各站点的下车吸引权确定下车可能性。
-
基于深圳市7 d刷卡AFC和公交GPS数据,在公交站点和乘客上车站点确定的基础上,根据出行分析的结论,对乘客的下车站点进行推断,算法步骤如下。
1) 乘客该条上车记录的乘车路线Li与下一条刷卡路线Li+1比较(如都为1路),判断是否为同一条路线,并且根据GPS数据中的上下行信息判断站点是否位于上车站点的下游。
2) 如果上条判断不成立,不为同一条线路的下游站点,那么计算下一次刷卡点的坐标(xi+1, yi+1)与线路Li上一次上车刷卡点位置间的欧氏距离Di+1,判断Di+1是否远远小于1 km(相邻两个公交站点的距离一般为1 km左右)。
3) 若Li=Li+1为同一条路线且位于下游,或者Di+1小于一定范围(例如,平均站点距离1 km),那么,乘客出行节没有断裂,下一条的刷卡站点为上一条记录的下车站点;
4) 若以上条件都不符合,则乘客的出行节为断裂,首先利用此乘客的个人出行规律进行判断。根据乘客公交卡ID号码提取乘客7 d所有的出行记录,计算乘客的各上车站点的上车频次,判断上车点的下游是否有高频站点;
5) 当上车点下游的高频站点集U不为空,则判断乘客此次出行可能的下车站点为下游高频站点,频次p1i越大, 可能性越大;
6) 若下游的高频站点集U为空,则利用乘坐线路Li各站点的吸引权判断下车可能性。提取线路Li的出行ID,根据出行ID筛选出所有的此线路的刷卡数据,结合站点坐标,计算各站点的下车吸引权p2i;
7) 根据乘客上车点的下游站点下车吸引权,判断乘客此次出行的下车站点的可能性。吸引权越大,下车的可能性也越大,反之亦然。
-
乘客下车站点的评估检验模型原理为:设每个公交车AFC上车数据都附有一个代表正确预测其下车站点难易程度的系数wi,通过探测预测下车点与实际下车站点之间的距离,并根据权重衡量精确程度,如图 6所示。
图 6中绿色的点A2、A3、A4和A5为有效的推断点,红色的点A1和A6为无效点,以分布在实际站点P为圆心、半径d=500 m的圆内的点为有效点(半径阈值为经验值,且在计算过程中以概率衰减)。具体检验模型如下:
$$ g\left( {{d_i}} \right) = {e^{-\frac{{d_i^2}}{{2{\delta ^2}}}}} $$ (5) $$ {I_i} = \left\{ \begin{array}{l} 1, {d_i} \le d\\ 0, {d_i} > d \end{array} \right. $$ (6) $$ Q = \sum\limits_{{\rm{ }}i = 1}^n {\left[{{I_i}g({d_i})} \right]{w_i}} $$ (7) 式(5)~(7)中,g(di)为有效点i到实际站点的距离得分;δ2为下车预测有效点与对应实际站点距离集合的方差;di为有效点i到实际站点的距离;Ii判断点是否有效,即是否在有效圈内,1表示有效,0表示无效;wi为预测点为有效点的难易系数;Q为所有下车预测点的评分总和。由检验模型可知,图 6中A1~A6 6个下车预测点的评分总和为QA,即:
$$ \begin{array}{l} {Q_A} = g\left( {{d_P}{{_{_1}}_{{A_2}}}} \right){w_1} + g\left( {{d_P}{{_{_1}}_{{A_3}}}} \right){w_2} + \\ \;\;\;\;\;\;\;g\left( {{d_P}{{_{_2}}_{{A_4}}}} \right){w_3} + g\left( {{d_P}{{_{_2}}_{{A_5}}}} \right){w_4} \end{array} $$ (8) 判断乘客下车站点的主要意义在于研究乘客的出行特征,计算结果并不是准确的站点位置但位于实际站点附近。
-
以深圳市公交车320路和334路2014年9月1-7日的29万条乘客刷卡数据为例,根据推算模型试判断乘客出行节连续或断裂两种情况下的上下车站点。对乘客的上车站点匹配成功率为91%,对乘客下车站点的匹配成功率为60%。
表 1列出了选取不同出行类型的具体记录及推算结果。表 1中卡号649的乘客7 d出行记录中包含了规律出行(M1/M2)和经验出行(M3)。已知9月1-5日为工作日,9月6日、7日是休息日,由表 1看出,1-6日起终点基本固定,7日无刷卡,可知649乘客是规律出行的上班族或者学生,前5 d下车站点全部符合M1的出行条件,而对于最后一次刷卡记录,由于该乘客没有下一条公交出行记录,但有下游高频站点(科技园),符合经验出行M3。
表 1 乘客上下车站点推算结果
Table 1. The Result of the Passengers' Alighting Station Identification
日期 时间 公交线路 卡号 上车站点 下车站点 2014-09-01 06:35:05 320 649 太宁小学 康佳集团 2014-09-01 19:02:07 320 649 康佳集团 太宁小学 2014-09-02 06:34:05 320 649 太宁小学 科技园 2014-09-02 18:58:01 320 649 科技园 太宁小学 2014-09-03 07:04:13 320 649 太宁小学 科技园 2014-09-03 19:12:25 320 649 科技园 太宁小学 2014-09-04 06:47:23 320 649 太宁小学 科技园 2014-09-04 19:08:43 320 649 科技园 太宁小学 2014-09-05 06:25:31 320 649 太宁小学 科技园 2014-09-05 18:48:27 320 649 科技园 太宁小学 2014-09-06 06:33:23 320 649 太宁小学 科技园(M3) 2014-09-01 06:58:55 320 18 247 香蜜湖 上海宾馆西(M4) 2014-09-04 12:51:25 334 18 247 科院北环立交 横岭工业区 在表 1卡号18 247乘客的出行记录中,7 d内乘客只有3条刷卡记录,并且包含两条路线,基本属于随机出行。第一条记录乘客乘坐320路,下一条记录不是同路线且不在下游附近,也并无经验出行,因此该条记录在计算下车站点时参考该路线该车下游各站点的下车吸引权(M4),如图 7所示,上海宾馆西下车吸引力度0.225为最大,推断为最可能的下车站点。
-
本文通过以公交AFC和GPS数据为依据,计算乘客上车站点,以乘客出行链分析为基础,并结合乘客个人刷卡记录中的高频站点和所乘线路下游站点吸引权,提出一种推断下车站点的算法。算法实现了对不同情况下的出行行为公交乘客下车站点可能性的有效推断。在今后的工作中,仍将继续对该方法进行完善。
An Algorithm to Identify Passengers' Alighting Stations and the Effectiveness Evaluation
-
摘要: 特大型城市的公交车上普遍安装了自动售票(auto fare collection,AFC)系统和车载GPS导航定位设备,记录了乘客出行与行车轨迹、时间等数据,连续运行的公交车和众多的出行乘客形成了城市公共交通运行和出行大数据。如何高效、准确地从公交大数据中识别公交乘客下车站点,对于提高交通运行效率、科学布局组织交通具有重要的意义和作用。基于深圳市公交车AFC和GPS数据,利用时间匹配和基于带噪声空间密度聚类的方法判别上车站点;在仅有的公交数据基础上,通过分析乘客出行行为,根据乘客多天的出行以及各站点的上车频率,利用乘客高频站点和下游站点吸引权,提出一种推算方法,实现乘客下车站点的推断。算法模型的检验和实例分析表明该方法的有效性。Abstract: The construction of intelligent public transport system is an effective way to solve the pro-blem of urban traffic and to facilitate the residents to travel. Auto fare collection (AFC) system and vehicle GPS, which records passengers' trip and bus track data, are widely used in hyper-megalopolis. Using the bus big data efficiently to identify passengers' alighting stations is very important for urban transportation operations and organization. Based on AFC and GPS data, this paper presents an algorithm to identify passengers' alighting stations. We use the time matching method and density clustering to identify the bus stops. Considering the passengers' trip-chain and trip-section, this paper proposes an algorithm that combines the high frequency sites and site heat to identify the location of passengers' alighting stations possibility. The distance between the actual stations and the weight of the estimated points determines the accuracy of the forecast. The results illustrate the effectiveness and usefulness of the proposed method in identifying the passengers' alighting stations.
-
Key words:
- time-matching /
- density cluster /
- high frequency site /
- site heat /
- alighting station
-
表 1 乘客上下车站点推算结果
Table 1. The Result of the Passengers' Alighting Station Identification
日期 时间 公交线路 卡号 上车站点 下车站点 2014-09-01 06:35:05 320 649 太宁小学 康佳集团 2014-09-01 19:02:07 320 649 康佳集团 太宁小学 2014-09-02 06:34:05 320 649 太宁小学 科技园 2014-09-02 18:58:01 320 649 科技园 太宁小学 2014-09-03 07:04:13 320 649 太宁小学 科技园 2014-09-03 19:12:25 320 649 科技园 太宁小学 2014-09-04 06:47:23 320 649 太宁小学 科技园 2014-09-04 19:08:43 320 649 科技园 太宁小学 2014-09-05 06:25:31 320 649 太宁小学 科技园 2014-09-05 18:48:27 320 649 科技园 太宁小学 2014-09-06 06:33:23 320 649 太宁小学 科技园(M3) 2014-09-01 06:58:55 320 18 247 香蜜湖 上海宾馆西(M4) 2014-09-04 12:51:25 334 18 247 科院北环立交 横岭工业区 -
[1] 刘经南, 方媛, 郭迟, 等.位置大数据的分析处理研究进展[J].武汉大学学报·信息科学版, 2014, 39(4):379-385 http://ch.whu.edu.cn/CN/abstract/abstract2947.shtml Liu Jingnan, Fang Yuan, Guo Chi, et al. Research Progress in Location Big Data Analysis and Proces-sing[J]. Geomatics and Information Science of Wuhan University, 2014, 39(4):379-385 http://ch.whu.edu.cn/CN/abstract/abstract2947.shtml [2] 杨东援, 段征宇.大数据环境下城市交通分析技术[M].上海:同济大学出版社, 2015 Yang Dongyuan, Duan Zhengyu. City Traffic Big Data Analysis Technology[M]. Shanghai:Tongji University Press, 2015 [3] Barry J J, Newhouser R, Rahbee A, et al. Origin and Destination Estimation in New York City with Automated Fare System Data[J]. Transportation Research Record:Journal of the Transportation Research Board, 2002, 1817(1):183-187 doi: 10.1007%2F978-3-642-27326-1_95 [4] Zhao J H. The Planning and Analysis Implications of Automated Data Collection Systems: Rail Transit OD Matrix Inference and Path Choice Modeling Examples[D]. Cambridge: Massachusetts Institute of Technology, 2004 [5] 陈君. 基于IC卡数据的城市公共交通需求分析技术与方法[D]. 上海: 同济大学, 2009 Chen Jun. Research on Travel Demand Analysis of Urban Public Transportation Based on Smart Card Data[D]. Shanghai: Tongji University, 2009 [6] 王超. 基于IC卡信息的公交客流OD推算方法研究[D]. 北京: 北京交通大学, 2012 Wang Chao. Passenger Flow Calculation for Bus Stations Based on IC Card Data[D]. Beijing: Beijing Jiaotong University, 2012 [7] 徐建闽, 熊文华, 游峰.基于GPS和IC卡的单线公交OD生成方法[J].微计算机信息, 2008, 24(22):221-222, 218 doi: 10.3969/j.issn.1008-0570.2008.22.091 Xu Jianmin, Xiong Wenhua, You Feng. The Method of Single-line Public Transportation OD Based on GPS and Intelligent Card[J]. Control & Automation, 2008, 24(22):221-222, 218 doi: 10.3969/j.issn.1008-0570.2008.22.091 -