-
居民社会经济属性影响其日常出行特征,如出行距离、交通模式、活动链模式等[1-2]。随着移动通讯与定位技术的发展,居民出行位置数据(例如手机定位数据)越来越广泛地被应用在交通地理相关问题的研究中[3-5]。这些数据具有丰富的出行位置信息,但普遍缺乏社会经济属性。如果能够构建通过居民日常交通出行活动特征反推出个体的经济收入水平的方法,将会大大丰富居民出行位置数据的内容,从而增强对分析结果的解释能力。
目前有关居民活动特征与其经济属性之间关系的研究主要在区域尺度和个体尺度两个层面。在区域尺度上,主要进行区域的人员移动特征(如出行距离等)和区域经济发展水平之间的相关性分析[6]以及借助机器学习方法进行手机基站尺度的居民经济水平预测[7]。在个体尺度上,能够获取个体层面的经济水平数据进行模型验证是关键[8-9]。Bluemenstock等在手机用户中随机抽样了856名人员,并问卷调查获得了他们的个体经济水平数据[8]。利用手机通话定位数据对提取的个体通话特征(如通话次数等)、通话联系的网络特征、移动特征以及问卷得到的个体经济水平数据进行了监督学习和模型训练,并对非洲卢旺达150万手机用户的经济水平进行个体层面的预测,其结果与官方的统计结果高度一致。然而,上述研究中的活动特征既包含了个体出行活动特征,又包括了在通信网络中的通话特征。通话特征受限于手机通话数据这一特定数据源,而由于移动定位技术的发展而获得的大量个体出行位置数据却并不一定包含通话特征。郭思慧等利用手机逐小时定位数据提取的居民时空轨迹数据,根据居民出行活动特征分析其与收入水平的关系[9]。但是由于没有个体层面的真实经济水平数据做验证,其研究只能局限于不同收入类别居民间的统计比较。
针对上述问题,本文提出了基于居民出行活动特征的个体经济收入水平推断方法,并利用广州市居民出行调查日志数据进行模型训练和验证。出行调查日志数据详细记录了个体的日常出行轨迹及活动信息,并且包含确切的个体经济收入数据,能够支持个体层面的经济收入水平推断和直接验证。本文的方法也能够为基于居民出行位置大数据的高时效、高时空分辨率的居民经济收入分布、制图等研究提供依据。
HTML
-
本文研究数据来源于2013年《广州市城市居民日常出行调查问卷》。问卷调查时间为2013年4月至6月。研究区域为广州市辖区范围(除增城、从化以外),包括天河区、越秀区、海珠区、番禺区、荔湾区、黄浦区、花都区及白云区等8个区。问卷样本的选取充分考虑了随机性和代表性。调查社区在研究区域中的分布如图 1所示。
在研究区域范围内,总计回收有效问卷1 604份,每份问卷记录了被调查者的基本属性,包括月经济收入等(见表 1)及其最近一个工作日的出行详细日志(见表 2)。
居民编号 月经济收入/元 出行次数 家庭住址 ** 2 800 2 **市**区
**街道**号Table 1. Example of Household Travel Survey
出行次数 出行目的 目的地 出发时间 到达时间 出行1 上班 **市**区**
街道**号7:30 8:15 出行2 回家 **市**区**
街道**号5:30 6:20 Table 2. Example of Trips of a Resident
-
个体的出行活动轨迹在一定程度上能够反映其工作性质、收入等社会经济属性[10]。本文基于出行轨迹构建居民活动特征, 提出了出行轨迹移动性指标、基于居住地的出行特征以及居民出行活动链模式共3个方面的若干指标来反映个体的出行活动特征。
-
本文的出行轨迹移动性指标包括:个体在一个工作日内出行的最大距离、停驻次数、停驻点个数、移动熵、空间多样性、回旋半径共6个指标。
1) 最大距离。
个体轨迹中最远的两个停驻点之间的距离。
2) 停驻次数。
个体轨迹中停驻点的总个数,记为N。
3) 停驻点个数。
个体轨迹中不同停驻点的个数。
4) 移动熵。
移动熵反映个体出行地点的随机性[11]。其值越大,表示个体出行到不同地点的随机性越大。个体a的移动熵Entropy (a)为:
其中,pai表示个体a到达停驻点i的概率。
5) 空间多样性。
空间多样性越大,表示个体在不同区域的异质性越大[12],能在一定程度上体现个体的工作性质。个体a活动的空间多样性Diversity (a)为:
6) 回旋半径。
回旋半径Radius(a)为个体a的移动位置与移动中心的均方根距离,反映个体的活动范围大小[7, 13]。表示为:
式中,$\vec{r}_{a t}$为个体a在停驻点i的坐标;$\vec{r}_{a g}$为个体a经过的所有停驻点的坐标中心。
-
为了充分挖掘出行轨迹数据中蕴含的语义信息,按居民日常出行特征,以家为起点,提出了以下6个基于居住地的出行特征指标。
1) 一天(7:00-23:00)离家平均距离。
个体a在7:00-23:00之间各停驻地点离家的距离均值AveDis(a)计算为:
式中,(xi, yi)为7:00-23:00之间i时刻居民a的停驻点位置;(x0, y0)为居民a的家所在的位置。
2) 一天(7:00-23:00)离家距离众数。
个体a在7:00-23:00之间各停驻地点离家距离的众数ModDis(a)计算为:
式中,(xi, yi)以及(x0, y0)的含义与式(4)相同。
3) 工作时间(9:00-18:00)离家平均距离。
个体a在9:00-18:00之间各停驻地点距离家的距离均值AveWorkDis(a)为:
式中,(xi, yi)为9:00到18:00之间i时刻居民a的停驻点位置;(x0,y0)为居民a的家所在的位置。
4) 工作时间(9:00-18:00)离家距离众数。
个体a在9:00至18:00之间各停驻地点距离家的距离的众数ModWorkDis(a)为:
式中, (xi,yi)以及(x0,y0)的含义与式(6)相同。
5) 初次离家时间。
个体a在一天内(0:00-23:00)首次离开家的时间设为tLH (tLH= 0, 1, 2…23)。
6) 末次回家时间。
个体a在一天内(0:00-23:00)末次返回家的时间设为tRH (tRH= 0, 1, 2…23)。
-
根据大部分居民在工作日的出行特点,本文将出行目的综合为3大类(工作(包含上学)、回家及其他)。通过家与工作地两个主要活动,对居民的活动链模式进行分类[2],如表 3所示。
序号 活动链类型 描述 包含上班 1 HWH 从家到单位/学校,再返回家的简单往返行程 2 HWH+ 基于家的一次往返,至少有一个除单位/学校外的中途停驻点 3 HWH++ 基于家的多次往返,至少有一个除单位/学校外的中途停驻点 4 HWHWH 以家为中途停驻点的工作往返行程 5 HWHWH+ 中途停驻点除一次为家外,还有其他地点的工作往返行程 6 HWHWH++ 中途停驻点两次以上为家,还有其他地点的工作往返行程 7 HW+WH 包含至少一个以单位为起点的工作子往返行程,至少一个中途停驻点 不含上班 8 H+H 不以上班/上学为目的的一次往返行程,有一个中途停驻点 9 H++H 不以上班/上学为目的的多次往返行程,有一个以上的中途停驻点 Table 3. Classification of Activity Chain
2.1. 出行轨迹移动性指标
2.2. 基于居住地的出行特征
2.3. 出行活动链模式
-
随机森林是一种基于分类回归树的数据挖掘方法[14]。它通过bootstrap重采样技术从原始训练样本集中有放回地随机抽取n个训练集,每个训练集的大小约为原始数据的2/3,之后为每个训练集分别建立分类回归树。重复多次之后得到多个决策树,并采用多数投票法对待分类样本进行决策分类。本文以提取出的出行轨迹移动性指标、基于居住地的出行特征、出行链模式共3个方面的13维特征为自变量,以居民经济收入水平类别为因变量组成样本建立随机森林模型。
根据2012年广东省统计局的分等级城镇居民家庭人均可支配收入及广州市2013年人均可支配收入,并结合本调查样本中个人月收入的分布,将收入分为3个等级,即2 000元/月以下为低收入者,2 000~5 000元/月为中等收入者,5 000元/月以上为高收入者。在本文的调查数据样本中,低收入者占总调查人口的16.3%,中等收入者占总调查人口的65.7%,高收入者占总调查人口的17.9%。
由于高、低收入两类人群的数量在调查数据中占比较低,为了保证训练样本中各收入类别数据的均衡性,本文采用合成少数类过采样技术[15](synthetic minority oversampling technique, SMOTE)对高、低收入两类的样本量进行了调节,使其与中收入人群训练样本量基本持平。
-
本文基于Matlab实现随机森林算法。利用袋外数据(out-of-bag, OOB)无偏估计得到在不同的参数设置下随机森林模型的OOB误差变化。综合考虑模型精度与计算机运行性能等因素,随机森林模型中树的棵数设置为400。
根据居民出行调查日志中高、中、低经济收入水平的分布按比例抽取80%的数据作为随机森林模型的训练样本,经过SMOTE方法重采样后对随机森林模型进行训练。剩余20%的数据作为测试集。根据训练好的模型对测试集的数据进行测试。表 4的混淆矩阵给出了本文模型的总体分类精度和对低收入、中等收入、高收入人群的分类精度。由表 4可知,总体分类精度为80%,对低收入、中等收入、高收入人群的分类精度分别为63%、94%和41%。本文方法对中等收入群体的分类精度最高,其次为低收入群体,最后是高收入群体。
混淆矩阵 预测值 总数 分类精度 低 中 高 实际值 低 33 18 1 52 63% 中 9 198 3 210 94% 高 3 30 23 56 41% 总体精度 - - - - 80% Table 4. Confusion Matrix
图 2为通过随机森林模型得到的各个特征重要性的排序。13个特征F1~F13分别为:F1工作时间(9:00-18:00)离家距离众数、F2工作时间(9:00-18:00)离家平均距离、F3一天(7:00-23:00)离家距离众数、F4一天(7:00-23:00)离家平均距离、F5出行链模式、F6最大距离、F7回旋半径、F8初次回家时间、F9末次离家时间、F10移动熵、F11空间多样性、F12停驻次数、F13停驻点数目。如图 2所示,整体上基于家的出行特征(如F1~F4、F5)以及与出行范围有关的移动性指标(如F6、F7)重要性较高,而衡量活动地点空间异质性的指标(如F11~F13)重要性相对较低。
接下来以社区为单元,统计本文方法对各个社区样本的分类效果。如表 5所示,总体上89%的社区分类精度都达到70%以上,说明本文的方法对大多数社区具有较好的个体经济水平推断效果。分类精度达到85%以上的社区有泽德、广和、王圣堂、应元、祈福、小梅共6个社区。这6个社区的共同点是绝大多数的居民经济收入为中等水平,本文的方法对这些社区具有较好的识别率。这些高识别率的社区在F1~F7这7个重要性较高的特征值上表现出较大的差异。其中祈福社区的F1~F4、F6、F7特征值均明显高于其他社区。该社区位于广州市番禺区,存在非常多的跨区就业,居民出行空间跨度大,工作日出行距离较远。而王圣堂社区属于城市商业服务从业人口集中的社区,该社区的居民出行空间跨度较小,各项特征值均较小。分类精度低于70%的中大和天河直街社区共同特点为经济收入为中等水平的居民人数并不占主导地位,两个社区的大多数居民属于高收入人群。本文的方法对这几个社区的分类精度相对较差。
社区 分类精度 Top-7特征 F1 F2 F3 F4 F5 F6 F7 泽德 0.91 3.52 3.32 2.86 2.06 7 3.98 1.74 广和 0.90 2.72 2.85 1.18 1.55 2、9 3.69 1.58 王圣堂 0.89 0.74 0.70 0.5 0.51 7、2 1.20 0.52 应元 0.89 1.85 1.82 1 1.10 7 2.48 1.04 祈福 0.87 8.71 8.04 5.23 4.99 7 9.72 4.31 小梅 0.86 2.28 2.09 1.11 1.29 2、1 2.63 1.19 石溪 0.84 2.26 2.13 1.02 1.33 7 2.93 1.28 三堂 0.84 1.64 1.53 1.25 1.08 1、2、7 2.44 1.07 怡东 0.83 5.45 5.19 5 3.18 2、1 6.38 2.92 新街 0.81 1.58 1.53 0.76 0.97 1 2.43 1.14 吉祥 0.79 1.85 1.65 0.96 1.08 7、2 2.29 1.00 穗华 0.77 2.29 2.16 1.59 1.36 7、1 2.61 1.19 先锋 0.77 2.48 2.69 1.92 1.68 7、9、1 3.93 1.73 康乐中 0.74 2.61 2.54 2.01 1.61 1 3.09 1.48 麓苑 0.74 2.70 2.51 0.87 1.58 7 3.11 1.37 洪庆坊 0.73 1.18 1.11 0.38 0.69 7 1.61 0.68 天河直街 0.69 3.67 3.42 2.55 2.17 1、9 4.68 2.13 中大 0.65 2.90 2.74 2.08 1.75 1、4 3.73 1.73 整体均值 0.74 3.23 3.05 1.95 2.81 3.89 1.76 注:F5中1、2、4、7、9分别表示HWH、HWH+、HWHWH、HW+WH、H++H Table 5. Classification Accuracy and Top-7 Feature Values of Each Community
为了得到在不同的训练样本分布情况下各特征的重要性差异,在训练样本中分别抽取低收入、中等收入人群作为一组,中等收入、高收入人群为一组,低收入、高收入人群为一组,进行3组随机森林的模型训练以及特征重要性评价。图 3为在3个分组中的各特征值重要性排序。从图 3可以看出,F1~F4、F6、F7在3组分类测试中均具有较高的重要性,说明无论样本特点如何,这几个特征对于个体收入水平推断都非常重要。此外,F1对于低-中、中-高收入人群的区分较为重要。F5、F8和F9对于低-高收入人群间的区分具有较高的重要性。F5在中-高收入人群的分类中重要性较低。F10~F13对于3类人群两两间分类的重要性均相对较低。
-
本文基于广州市2013年居民出行日志调查数据,从居民出行轨迹的移动模性指标、基于居住地的出行特征和居民出行活动链模式3个维度提取了13个个体出行活动特征。利用随机森林方法进行基于居民出行活动特征的个体经济收入水平的推断。结果表明,本文的方法能够获得总体80%的个体经济收入水平推断精度。本文的研究也存在以下的不足:首先,本文方法对低收入群体和高收入群体的分类精度较低,未来考虑将居民居住地的房价特征、出行方式、出行目的等语义属性纳入到本文的出行特征集中,提高对个体经济收入水平的推断精度。其次,目前模型的数据为广州市居民出行调查日志数据,模型精度以及特征的重要性也主要依赖广州市居民的出行特点,后续可以结合其他城市的数据进行比较研究。