留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于居民出行活动特征的个体经济水平推断方法

李秋萍 刘逸诗 巩诗瑶 周素红 卓莉 陶海燕 栾学晨

李秋萍, 刘逸诗, 巩诗瑶, 周素红, 卓莉, 陶海燕, 栾学晨. 基于居民出行活动特征的个体经济水平推断方法[J]. 武汉大学学报 ● 信息科学版, 2019, 44(10): 1575-1580. doi: 10.13203/j.whugis20170426
引用本文: 李秋萍, 刘逸诗, 巩诗瑶, 周素红, 卓莉, 陶海燕, 栾学晨. 基于居民出行活动特征的个体经济水平推断方法[J]. 武汉大学学报 ● 信息科学版, 2019, 44(10): 1575-1580. doi: 10.13203/j.whugis20170426
LI Qiuping, LIU Yishi, GONG Shiyao, ZHOU Suhong, ZHUO Li, TAO Haiyan, LUAN Xuechen. Individual Income Level Inference Method Based on Travel Behavior of Urban Residents[J]. Geomatics and Information Science of Wuhan University, 2019, 44(10): 1575-1580. doi: 10.13203/j.whugis20170426
Citation: LI Qiuping, LIU Yishi, GONG Shiyao, ZHOU Suhong, ZHUO Li, TAO Haiyan, LUAN Xuechen. Individual Income Level Inference Method Based on Travel Behavior of Urban Residents[J]. Geomatics and Information Science of Wuhan University, 2019, 44(10): 1575-1580. doi: 10.13203/j.whugis20170426

基于居民出行活动特征的个体经济水平推断方法

doi: 10.13203/j.whugis20170426
基金项目: 

国家自然科学基金 41971345

国家自然科学基金 41522104

国家自然科学基金 41531178

国家自然科学基金 51678577

广东省自然科学基金 2016A030310168

测绘遥感信息工程国家重点实验室开放基金 16S02

详细信息

Individual Income Level Inference Method Based on Travel Behavior of Urban Residents

Funds: 

The National Natural Science Foundation of China 41971345

The National Natural Science Foundation of China 41522104

The National Natural Science Foundation of China 41531178

The National Natural Science Foundation of China 51678577

the Natural Science Foundation of Guangdong Province 2016A030310168

the Open Research Fund of State Key Laboratory of Information Engineering in Surveying, Mapping and Remote Sensing, Wuhan University 16S02

More Information
  • 摘要: 提出了一种基于居民出行活动特征的个体经济水平推断方法。从出行轨迹的移动性指标、基于居住地的出行特征和出行活动链模式3个方面提取13维出行活动特征,以广州市居民出行日志调查数据为训练和测试数据,利用随机森林方法进行个体经济收入水平的推断与检验。结果表明,该方法能够获得最高80%的个体收入水平推断精度。基于家的出行特征(如工作时间(9:00-18:00)离家距离众数等、出行链模式)以及与出行范围有关的移动性指标(如最大距离、回旋半径)在推断个体经济水平上的重要性较高,而衡量出行地点空间异质性的指标(如空间多样性等)重要性相对较低。
  • 图  1  研究区及问卷社区位置

    Figure  1.  Research Area and Locations of 18 Surveyed Communities

    图  2  各个特征值重要性排序

    Figure  2.  Rank of Feature Importance

    图  3  各个特征在区分低-中、中-高、低-高收入人群中的重要性比较

    Figure  3.  Feature Importance in Low and Medium, Medium and High, and Low and High Income Residents

    表  1  居民出行调查基本属性示例

    Table  1.   Example of Household Travel Survey

    居民编号 月经济收入/元 出行次数 家庭住址
    ** 2 800 2 **市**区
    **街道**号
    下载: 导出CSV

    表  2  居民出行日志示例

    Table  2.   Example of Trips of a Resident

    出行次数 出行目的 目的地 出发时间 到达时间
    出行1 上班 **市**区**
    街道**号
    7:30 8:15
    出行2 回家 **市**区**
    街道**号
    5:30 6:20
    下载: 导出CSV

    表  3  出行活动链模式

    Table  3.   Classification of Activity Chain

    序号 活动链类型 描述
    包含上班 1 HWH 从家到单位/学校,再返回家的简单往返行程
    2 HWH+ 基于家的一次往返,至少有一个除单位/学校外的中途停驻点
    3 HWH++ 基于家的多次往返,至少有一个除单位/学校外的中途停驻点
    4 HWHWH 以家为中途停驻点的工作往返行程
    5 HWHWH+ 中途停驻点除一次为家外,还有其他地点的工作往返行程
    6 HWHWH++ 中途停驻点两次以上为家,还有其他地点的工作往返行程
    7 HW+WH 包含至少一个以单位为起点的工作子往返行程,至少一个中途停驻点
    不含上班 8 H+H 不以上班/上学为目的的一次往返行程,有一个中途停驻点
    9 H++H 不以上班/上学为目的的多次往返行程,有一个以上的中途停驻点
    下载: 导出CSV

    表  4  混淆矩阵

    Table  4.   Confusion Matrix

    混淆矩阵 预测值 总数 分类精度
    实际值 33 18 1 52 63%
    9 198 3 210 94%
    3 30 23 56 41%
    总体精度 - - - - 80%
    下载: 导出CSV

    表  5  以社区为单元的分类精度和特征值

    Table  5.   Classification Accuracy and Top-7 Feature Values of Each Community

    社区 分类精度 Top-7特征
    F1 F2 F3 F4 F5 F6 F7
    泽德 0.91 3.52 3.32 2.86 2.06 7 3.98 1.74
    广和 0.90 2.72 2.85 1.18 1.55 2、9 3.69 1.58
    王圣堂 0.89 0.74 0.70 0.5 0.51 7、2 1.20 0.52
    应元 0.89 1.85 1.82 1 1.10 7 2.48 1.04
    祈福 0.87 8.71 8.04 5.23 4.99 7 9.72 4.31
    小梅 0.86 2.28 2.09 1.11 1.29 2、1 2.63 1.19
    石溪 0.84 2.26 2.13 1.02 1.33 7 2.93 1.28
    三堂 0.84 1.64 1.53 1.25 1.08 1、2、7 2.44 1.07
    怡东 0.83 5.45 5.19 5 3.18 2、1 6.38 2.92
    新街 0.81 1.58 1.53 0.76 0.97 1 2.43 1.14
    吉祥 0.79 1.85 1.65 0.96 1.08 7、2 2.29 1.00
    穗华 0.77 2.29 2.16 1.59 1.36 7、1 2.61 1.19
    先锋 0.77 2.48 2.69 1.92 1.68 7、9、1 3.93 1.73
    康乐中 0.74 2.61 2.54 2.01 1.61 1 3.09 1.48
    麓苑 0.74 2.70 2.51 0.87 1.58 7 3.11 1.37
    洪庆坊 0.73 1.18 1.11 0.38 0.69 7 1.61 0.68
    天河直街 0.69 3.67 3.42 2.55 2.17 1、9 4.68 2.13
    中大 0.65 2.90 2.74 2.08 1.75 1、4 3.73 1.73
    整体均值 0.74 3.23 3.05 1.95 2.81 3.89 1.76
    注:F5中1、2、4、7、9分别表示HWH、HWH+、HWHWH、HW+WH、H++H
    下载: 导出CSV
  • [1] Limtanakool N, Dijst M, Schwanen T. The Influence of Socioeconomic Characteristics, Land Use and Travel Time Considerations on Mode Choice for Medium-and Longer-Distance Trips[J]. Journal of Transport Geography, 2006, 14(5):327-341 doi:  10.1016/j.jtrangeo.2005.06.004
    [2] Hedau L, Sanghai S. Development of Trip Generation Model Using Activity Based Approach[J]. International Journal of Civil, Structural, Environmental and Infrastructure Engineering Research and Development, 2014(4):61-78
    [3] 鲁仕维, 方志祥, 萧世伦, 等.城市群体移动模式研究中空间尺度影响的定量分析.武汉大学学报·信息科学版, 2016, 41(9):1199-1204 http://ch.whu.edu.cn/CN/abstract/abstract5528.shtml

    Lu Shiwei, Fang Zhixiang, Shaw Shihlung, et al. Quantitative Analysis of the Effects of Spatial Scales on Intra-urban Human Mobility[J]. Geomatics and Information Science of Wuhan University, 2016, 41(9):1199-1204 http://ch.whu.edu.cn/CN/abstract/abstract5528.shtml
    [4] 陈佳, 胡波, 左小清, 等.利用手机定位数据的用户特征挖掘[J].武汉大学学报·信息科学版, 2014, 39(6):734-738 http://ch.whu.edu.cn/CN/abstract/abstract3001.shtml

    Chen Jia, Hu Bo, Zuo Xiaoqing, et al. Personal Profile Mining Based on Mobile Phone Location Data[J]. Geomatics and Information Science of Wuhan University, 2014, 39(6):734-738 http://ch.whu.edu.cn/CN/abstract/abstract3001.shtml
    [5] Tu W, Cao J Z, Yue Y, et al. Coupling Mobile Phone and Social Media Data:A New Approach to Understanding Urban Functions and Diurnal Patterns[J]. International Journal of Geographical Information Science, 2017, 31(12):2331-2358 doi:  10.1080/13658816.2017.1356464
    [6] Frias-Martinez V, Virseda J, Frias-Martinez E. Socio-economic Levels and Human Mobility[C]. Qual Meets Quant Workshop-QMQ 2010 at the International Conference on Information and Communication Technologies and Development, London, UK, 2010
    [7] Soto V, Frias-Martinez V, Virseda J, et al. Prediction of Socioeconomic Levels Using Cell Phone Records[C]. The 19th International Conference on User Modeling, Adaption and Personalization. Berlin, Heidelberg: Springer, 2011
    [8] Blumenstock J, Cadamuro G, On R. Predicting Poverty and Wealth from Mobile Phone Metadata[J]. Science, 2015, 350(6264):1073-1076 doi:  10.1126/science.aac4420
    [9] 郭思慧, 文聪聪, 何云, 等.居民出行活动特征与收入水平的关系——以上海市为例[J].地理科学进展, 2017, 36(9):1158-1166 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=dlkxjz201709013

    Guo Sihui, Wen Congcong, He Yun, et al. Relationship Between Travel Behavior and Income Level of Urban Residents:A Case Study in Shanghai Municipality[J]. Progress in Geography, 2017, 36(9):1158-1166 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=dlkxjz201709013
    [10] Kang C G, Gao S, Lin X, et al. Analyzing and Geo-visualizing Individual Human Mobility Patterns Using Mobile Call Records[C]. The 18th International Conference on Geoinformatics, Beijing, China, 2010
    [11] Yuan Y, Raubal M, Liu Y. Correlating Mobile Phone Usage and Travel Behavior-A Case Study of Harbin, China[J]. Computers, Environment and Urban Systems, 2012, 36(2):118-130 doi:  10.1016/j.compenvurbsys.2011.07.003
    [12] Yue Y, Zhuang Y, Yeh A, et al. Measurements of POI-based Mixed Use and Their Relationships with Neighbourhood Vibrancy[J]. International Journal of Geographical Information Science, 2017, 31(4):658-675 doi:  10.1080/13658816.2016.1220561
    [13] Gonzalez C, Hidalgo C, Barabasi L. Understanding Individual Human Mobility Patterns[J]. Nature, 2008, 453:779-782 doi:  10.1038/nature06958
    [14] Breiman L. Random Forests[J].Machine Learning, 2001, 45(1):5-32 doi:  10.1023/A:1010933404324
    [15] Chawla V, Bowyer W, Hall O, et al. Smote:Synthetic Minority Over-Sampling Technique[J]. Journal of Artificial Intelligence Research, 2002, 16(1):321-357 http://d.old.wanfangdata.com.cn/Periodical/dianzixb200911024
  • [1] 方志祥, 倪雅倩, 黄守倩.  融合Markov与多类机器学习模型的个体出行位置预测模型 . 武汉大学学报 ● 信息科学版, 2021, 46(6): 799-806. doi: 10.13203/j.whugis20190404
    [2] 何建华, 覃荣诺, 丁愫, 李江, 岳桥兵.  基于乡村宜居性和人口流动网络特征的农村居民点重构 . 武汉大学学报 ● 信息科学版, 2021, 46(3): 402-409. doi: 10.13203/j.whugis20200489
    [3] 余婷婷, 董有福.  利用随机森林回归算法校正ASTER GDEM高程误差 . 武汉大学学报 ● 信息科学版, 2021, 46(7): 1098-1105. doi: 10.13203/j.whugis20190245
    [4] 罗琼, 舒红, 徐亚瑾, 刘稳.  移动轨迹数据支持下的城市居民通勤活动分析 . 武汉大学学报 ● 信息科学版, 2021, 46(5): 718-725. doi: 10.13203/j.whugis20200025
    [5] 李平湘, 刘致曲, 杨杰, 孙维东, 黎旻懿, 任烨仙.  利用随机森林回归进行极化SAR土壤水分反演 . 武汉大学学报 ● 信息科学版, 2019, 44(3): 405-412. doi: 10.13203/j.whugis20160531
    [6] 胡凯龙, 刘清旺, 崔希民, 庞勇, 穆喜云.  多源遥感数据支持下的区域性森林冠层高度估测 . 武汉大学学报 ● 信息科学版, 2018, 43(2): 289-296, 303. doi: 10.13203/j.whugis20160066
    [7] 刘坚, 李树林, 陈涛.  基于优化随机森林模型的滑坡易发性评价 . 武汉大学学报 ● 信息科学版, 2018, 43(7): 1085-1091. doi: 10.13203/j.whugis20160515
    [8] 倪欢, 林祥国, 宁晓刚.  直角点特征引导的遥感影像居民地提取方法 . 武汉大学学报 ● 信息科学版, 2017, 42(5): 648-655. doi: 10.13203/j.whugis20140825
    [9] 瞿伟, 王运生, 徐超, 张勤, 王庆良.  渭河盆地深大断裂处构造应力特征及其活动特性 . 武汉大学学报 ● 信息科学版, 2017, 42(6): 825-830. doi: 10.13203/j.whugis20140744
    [10] 顾海燕, 闫利, 李海涛, 贾莹.  基于随机森林的地理要素面向对象自动解译方法 . 武汉大学学报 ● 信息科学版, 2016, 41(2): 228-234. doi: 10.13203/j.whugis20140102
    [11] 何平 许才军 温扬茂 丁开华 王庆良.  利用PALSAR数据研究长白山火山活动性 . 武汉大学学报 ● 信息科学版, 2015, 40(2): 214-221. doi: 10.13203/j.whugis20130077
    [12] 孙杰, 赖祖龙.  利用随机森林的城区机载LiDAR数据特征选择与分类 . 武汉大学学报 ● 信息科学版, 2014, 39(11): 1310-1313.
    [13] 瞿伟, 张勤, 王庆良, 李振洪.  利用GPS观测资料分析山西地堑系现今地壳构造活动特征 . 武汉大学学报 ● 信息科学版, 2012, 37(2): 195-198.
    [14] 瞿伟, 张勤, 王庆良, 李振洪.  渭河盆地现今地壳水平形变特征及区域构造活动性 . 武汉大学学报 ● 信息科学版, 2011, 36(7): 830-834.
    [15] 戴吾蛟, 丁晓利, 朱建军.  基于观测值质量指标的GPS观测量随机模型分析 . 武汉大学学报 ● 信息科学版, 2008, 33(7): 718-722.
    [16] 李睿, 李明, 张贵仓.  基于随机分块的脆弱性水印算法设计 . 武汉大学学报 ● 信息科学版, 2006, 31(9): 832-834.
    [17] 陶本藻, 杜方.  稳健基准应变分析法用于鲜水河断裂带活动特征研究 . 武汉大学学报 ● 信息科学版, 1992, 17(3): 9-17.
    [18] 何宗宜.  地图上确定居民地选取指标的依据研究 . 武汉大学学报 ● 信息科学版, 1986, 11(1): 56-62.
    [19] 吴京航, 桂志鹏, 申力, 吴华意, 刘洪波, 李锐, 梅宇翱, 彭德华.  顾及格网属性分级与空间关联的人口空间化方法 . 武汉大学学报 ● 信息科学版, 0, 0(0): 0-0. doi: 10.13203/j.whugis20200379
    [20] 毛丽君, 李明诗.  GEE环境下联合Sentinel主被动遥感数据的国家公园土地覆盖分类 . 武汉大学学报 ● 信息科学版, 0, 0(0): 0-0. doi: 10.13203/j.whugis20200633
  • 加载中
图(3) / 表(5)
计量
  • 文章访问数:  530
  • HTML全文浏览量:  56
  • PDF下载量:  174
  • 被引次数: 0
出版历程
  • 收稿日期:  2018-06-29
  • 刊出日期:  2019-10-05

基于居民出行活动特征的个体经济水平推断方法

doi: 10.13203/j.whugis20170426
    基金项目:

    国家自然科学基金 41971345

    国家自然科学基金 41522104

    国家自然科学基金 41531178

    国家自然科学基金 51678577

    广东省自然科学基金 2016A030310168

    测绘遥感信息工程国家重点实验室开放基金 16S02

    作者简介:

    李秋萍, 副教授, 主要从事交通地理的理论与方法研究。liqp3@mail.sysu.edu.cn

    通讯作者: 栾学晨, 博士后。luanxch@mail.sysu.edu.cn
  • 中图分类号: P208

摘要: 提出了一种基于居民出行活动特征的个体经济水平推断方法。从出行轨迹的移动性指标、基于居住地的出行特征和出行活动链模式3个方面提取13维出行活动特征,以广州市居民出行日志调查数据为训练和测试数据,利用随机森林方法进行个体经济收入水平的推断与检验。结果表明,该方法能够获得最高80%的个体收入水平推断精度。基于家的出行特征(如工作时间(9:00-18:00)离家距离众数等、出行链模式)以及与出行范围有关的移动性指标(如最大距离、回旋半径)在推断个体经济水平上的重要性较高,而衡量出行地点空间异质性的指标(如空间多样性等)重要性相对较低。

English Abstract

李秋萍, 刘逸诗, 巩诗瑶, 周素红, 卓莉, 陶海燕, 栾学晨. 基于居民出行活动特征的个体经济水平推断方法[J]. 武汉大学学报 ● 信息科学版, 2019, 44(10): 1575-1580. doi: 10.13203/j.whugis20170426
引用本文: 李秋萍, 刘逸诗, 巩诗瑶, 周素红, 卓莉, 陶海燕, 栾学晨. 基于居民出行活动特征的个体经济水平推断方法[J]. 武汉大学学报 ● 信息科学版, 2019, 44(10): 1575-1580. doi: 10.13203/j.whugis20170426
LI Qiuping, LIU Yishi, GONG Shiyao, ZHOU Suhong, ZHUO Li, TAO Haiyan, LUAN Xuechen. Individual Income Level Inference Method Based on Travel Behavior of Urban Residents[J]. Geomatics and Information Science of Wuhan University, 2019, 44(10): 1575-1580. doi: 10.13203/j.whugis20170426
Citation: LI Qiuping, LIU Yishi, GONG Shiyao, ZHOU Suhong, ZHUO Li, TAO Haiyan, LUAN Xuechen. Individual Income Level Inference Method Based on Travel Behavior of Urban Residents[J]. Geomatics and Information Science of Wuhan University, 2019, 44(10): 1575-1580. doi: 10.13203/j.whugis20170426
  • 居民社会经济属性影响其日常出行特征,如出行距离、交通模式、活动链模式等[1-2]。随着移动通讯与定位技术的发展,居民出行位置数据(例如手机定位数据)越来越广泛地被应用在交通地理相关问题的研究中[3-5]。这些数据具有丰富的出行位置信息,但普遍缺乏社会经济属性。如果能够构建通过居民日常交通出行活动特征反推出个体的经济收入水平的方法,将会大大丰富居民出行位置数据的内容,从而增强对分析结果的解释能力。

    目前有关居民活动特征与其经济属性之间关系的研究主要在区域尺度和个体尺度两个层面。在区域尺度上,主要进行区域的人员移动特征(如出行距离等)和区域经济发展水平之间的相关性分析[6]以及借助机器学习方法进行手机基站尺度的居民经济水平预测[7]。在个体尺度上,能够获取个体层面的经济水平数据进行模型验证是关键[8-9]。Bluemenstock等在手机用户中随机抽样了856名人员,并问卷调查获得了他们的个体经济水平数据[8]。利用手机通话定位数据对提取的个体通话特征(如通话次数等)、通话联系的网络特征、移动特征以及问卷得到的个体经济水平数据进行了监督学习和模型训练,并对非洲卢旺达150万手机用户的经济水平进行个体层面的预测,其结果与官方的统计结果高度一致。然而,上述研究中的活动特征既包含了个体出行活动特征,又包括了在通信网络中的通话特征。通话特征受限于手机通话数据这一特定数据源,而由于移动定位技术的发展而获得的大量个体出行位置数据却并不一定包含通话特征。郭思慧等利用手机逐小时定位数据提取的居民时空轨迹数据,根据居民出行活动特征分析其与收入水平的关系[9]。但是由于没有个体层面的真实经济水平数据做验证,其研究只能局限于不同收入类别居民间的统计比较。

    针对上述问题,本文提出了基于居民出行活动特征的个体经济收入水平推断方法,并利用广州市居民出行调查日志数据进行模型训练和验证。出行调查日志数据详细记录了个体的日常出行轨迹及活动信息,并且包含确切的个体经济收入数据,能够支持个体层面的经济收入水平推断和直接验证。本文的方法也能够为基于居民出行位置大数据的高时效、高时空分辨率的居民经济收入分布、制图等研究提供依据。

    • 本文研究数据来源于2013年《广州市城市居民日常出行调查问卷》。问卷调查时间为2013年4月至6月。研究区域为广州市辖区范围(除增城、从化以外),包括天河区、越秀区、海珠区、番禺区、荔湾区、黄浦区、花都区及白云区等8个区。问卷样本的选取充分考虑了随机性和代表性。调查社区在研究区域中的分布如图 1所示。

      图  1  研究区及问卷社区位置

      Figure 1.  Research Area and Locations of 18 Surveyed Communities

      在研究区域范围内,总计回收有效问卷1 604份,每份问卷记录了被调查者的基本属性,包括月经济收入等(见表 1)及其最近一个工作日的出行详细日志(见表 2)。

      表 1  居民出行调查基本属性示例

      Table 1.  Example of Household Travel Survey

      居民编号 月经济收入/元 出行次数 家庭住址
      ** 2 800 2 **市**区
      **街道**号

      表 2  居民出行日志示例

      Table 2.  Example of Trips of a Resident

      出行次数 出行目的 目的地 出发时间 到达时间
      出行1 上班 **市**区**
      街道**号
      7:30 8:15
      出行2 回家 **市**区**
      街道**号
      5:30 6:20
    • 个体的出行活动轨迹在一定程度上能够反映其工作性质、收入等社会经济属性[10]。本文基于出行轨迹构建居民活动特征, 提出了出行轨迹移动性指标、基于居住地的出行特征以及居民出行活动链模式共3个方面的若干指标来反映个体的出行活动特征。

    • 本文的出行轨迹移动性指标包括:个体在一个工作日内出行的最大距离、停驻次数、停驻点个数、移动熵、空间多样性、回旋半径共6个指标。

      1) 最大距离。

      个体轨迹中最远的两个停驻点之间的距离。

      2) 停驻次数。

      个体轨迹中停驻点的总个数,记为N

      3) 停驻点个数。

      个体轨迹中不同停驻点的个数。

      4) 移动熵。

      移动熵反映个体出行地点的随机性[11]。其值越大,表示个体出行到不同地点的随机性越大。个体a的移动熵Entropy (a)为:

      $$ \text { Entropy }(a)=-\sum\limits_{i=1}^{N} p_{a i} \log _{2} p_{a i} $$ (1)

      其中,pai表示个体a到达停驻点i的概率。

      5) 空间多样性。

      空间多样性越大,表示个体在不同区域的异质性越大[12],能在一定程度上体现个体的工作性质。个体a活动的空间多样性Diversity (a)为:

      $$ \text { Diversity }(a)=\frac{-\sum\limits_{i=1}^{N} p_{a i} \log _{2} p_{a i}}{\log (N)} $$ (2)

      6) 回旋半径。

      回旋半径Radius(a)为个体a的移动位置与移动中心的均方根距离,反映个体的活动范围大小[7, 13]。表示为:

      $$ \operatorname{Radius}(a)=\sqrt{\frac{1}{N}-\sum\limits_{i=1}^{N}\left(\vec{r}_{a t}-\vec{r}_{a g}\right)} $$ (3)

      式中,$\vec{r}_{a t}$为个体a在停驻点i的坐标;$\vec{r}_{a g}$为个体a经过的所有停驻点的坐标中心。

    • 为了充分挖掘出行轨迹数据中蕴含的语义信息,按居民日常出行特征,以家为起点,提出了以下6个基于居住地的出行特征指标。

      1) 一天(7:00-23:00)离家平均距离。

      个体a在7:00-23:00之间各停驻地点离家的距离均值AveDis(a)计算为:

      $$ \operatorname{AveDis}(a)=\frac{1}{17} \sum\limits_{i=7}^{23} \sqrt{\left(x_{i}-x_{0}\right)^{2}+\left(y_{i}-y_{0}\right)^{2}} $$ (4)

      式中,(xi, yi)为7:00-23:00之间i时刻居民a的停驻点位置;(x0, y0)为居民a的家所在的位置。

      2) 一天(7:00-23:00)离家距离众数。

      个体a在7:00-23:00之间各停驻地点离家距离的众数ModDis(a)计算为:

      $$ \begin{array}{c}{ \text { ModDis( }a)=\operatorname{Mod}\{\sqrt{\left(x_{i}-x_{0}\right)^{2}+\left(y_{i}-y_{0}\right)^{2}}\}}, \\ {\quad \quad(i=7, 8, 9 \cdots 23)}\end{array} $$ (5)

      式中,(xi, yi)以及(x0, y0)的含义与式(4)相同。

      3) 工作时间(9:00-18:00)离家平均距离。

      个体a在9:00-18:00之间各停驻地点距离家的距离均值AveWorkDis(a)为:

      $$ \text { AveWorkDis }(a)=\frac{1}{10} \sum\limits_{i=9}^{18} \sqrt{\left(x_{i}-x_{0}\right)^{2}+\left(y_{i}-y_{0}\right)^{2}} $$ (6)

      式中,(xi, yi)为9:00到18:00之间i时刻居民a的停驻点位置;(x0y0)为居民a的家所在的位置。

      4) 工作时间(9:00-18:00)离家距离众数。

      个体a在9:00至18:00之间各停驻地点距离家的距离的众数ModWorkDis(a)为:

      $$ \begin{array}{c}{\text { ModWorkDis(a) }=\operatorname{Mod}\{\sqrt{\left(x_{i}-x_{0}\right)^{2}+\left(y_{i}-y_{0}\right)^{2}}\}}, \\ {(i=9, 10, 11 \cdots 18)}\end{array} $$ (7)

      式中, (xiyi)以及(x0y0)的含义与式(6)相同。

      5) 初次离家时间。

      个体a在一天内(0:00-23:00)首次离开家的时间设为tLH (tLH= 0, 1, 2…23)。

      6) 末次回家时间。

      个体a在一天内(0:00-23:00)末次返回家的时间设为tRH (tRH= 0, 1, 2…23)。

    • 根据大部分居民在工作日的出行特点,本文将出行目的综合为3大类(工作(包含上学)、回家及其他)。通过家与工作地两个主要活动,对居民的活动链模式进行分类[2],如表 3所示。

      表 3  出行活动链模式

      Table 3.  Classification of Activity Chain

      序号 活动链类型 描述
      包含上班 1 HWH 从家到单位/学校,再返回家的简单往返行程
      2 HWH+ 基于家的一次往返,至少有一个除单位/学校外的中途停驻点
      3 HWH++ 基于家的多次往返,至少有一个除单位/学校外的中途停驻点
      4 HWHWH 以家为中途停驻点的工作往返行程
      5 HWHWH+ 中途停驻点除一次为家外,还有其他地点的工作往返行程
      6 HWHWH++ 中途停驻点两次以上为家,还有其他地点的工作往返行程
      7 HW+WH 包含至少一个以单位为起点的工作子往返行程,至少一个中途停驻点
      不含上班 8 H+H 不以上班/上学为目的的一次往返行程,有一个中途停驻点
      9 H++H 不以上班/上学为目的的多次往返行程,有一个以上的中途停驻点
    • 随机森林是一种基于分类回归树的数据挖掘方法[14]。它通过bootstrap重采样技术从原始训练样本集中有放回地随机抽取n个训练集,每个训练集的大小约为原始数据的2/3,之后为每个训练集分别建立分类回归树。重复多次之后得到多个决策树,并采用多数投票法对待分类样本进行决策分类。本文以提取出的出行轨迹移动性指标、基于居住地的出行特征、出行链模式共3个方面的13维特征为自变量,以居民经济收入水平类别为因变量组成样本建立随机森林模型。

      根据2012年广东省统计局的分等级城镇居民家庭人均可支配收入及广州市2013年人均可支配收入,并结合本调查样本中个人月收入的分布,将收入分为3个等级,即2 000元/月以下为低收入者,2 000~5 000元/月为中等收入者,5 000元/月以上为高收入者。在本文的调查数据样本中,低收入者占总调查人口的16.3%,中等收入者占总调查人口的65.7%,高收入者占总调查人口的17.9%。

      由于高、低收入两类人群的数量在调查数据中占比较低,为了保证训练样本中各收入类别数据的均衡性,本文采用合成少数类过采样技术[15](synthetic minority oversampling technique, SMOTE)对高、低收入两类的样本量进行了调节,使其与中收入人群训练样本量基本持平。

    • 本文基于Matlab实现随机森林算法。利用袋外数据(out-of-bag, OOB)无偏估计得到在不同的参数设置下随机森林模型的OOB误差变化。综合考虑模型精度与计算机运行性能等因素,随机森林模型中树的棵数设置为400。

      根据居民出行调查日志中高、中、低经济收入水平的分布按比例抽取80%的数据作为随机森林模型的训练样本,经过SMOTE方法重采样后对随机森林模型进行训练。剩余20%的数据作为测试集。根据训练好的模型对测试集的数据进行测试。表 4的混淆矩阵给出了本文模型的总体分类精度和对低收入、中等收入、高收入人群的分类精度。由表 4可知,总体分类精度为80%,对低收入、中等收入、高收入人群的分类精度分别为63%、94%和41%。本文方法对中等收入群体的分类精度最高,其次为低收入群体,最后是高收入群体。

      表 4  混淆矩阵

      Table 4.  Confusion Matrix

      混淆矩阵 预测值 总数 分类精度
      实际值 33 18 1 52 63%
      9 198 3 210 94%
      3 30 23 56 41%
      总体精度 - - - - 80%

      图 2为通过随机森林模型得到的各个特征重要性的排序。13个特征F1~F13分别为:F1工作时间(9:00-18:00)离家距离众数、F2工作时间(9:00-18:00)离家平均距离、F3一天(7:00-23:00)离家距离众数、F4一天(7:00-23:00)离家平均距离、F5出行链模式、F6最大距离、F7回旋半径、F8初次回家时间、F9末次离家时间、F10移动熵、F11空间多样性、F12停驻次数、F13停驻点数目。如图 2所示,整体上基于家的出行特征(如F1~F4、F5)以及与出行范围有关的移动性指标(如F6、F7)重要性较高,而衡量活动地点空间异质性的指标(如F11~F13)重要性相对较低。

      图  2  各个特征值重要性排序

      Figure 2.  Rank of Feature Importance

      接下来以社区为单元,统计本文方法对各个社区样本的分类效果。如表 5所示,总体上89%的社区分类精度都达到70%以上,说明本文的方法对大多数社区具有较好的个体经济水平推断效果。分类精度达到85%以上的社区有泽德、广和、王圣堂、应元、祈福、小梅共6个社区。这6个社区的共同点是绝大多数的居民经济收入为中等水平,本文的方法对这些社区具有较好的识别率。这些高识别率的社区在F1~F7这7个重要性较高的特征值上表现出较大的差异。其中祈福社区的F1~F4、F6、F7特征值均明显高于其他社区。该社区位于广州市番禺区,存在非常多的跨区就业,居民出行空间跨度大,工作日出行距离较远。而王圣堂社区属于城市商业服务从业人口集中的社区,该社区的居民出行空间跨度较小,各项特征值均较小。分类精度低于70%的中大和天河直街社区共同特点为经济收入为中等水平的居民人数并不占主导地位,两个社区的大多数居民属于高收入人群。本文的方法对这几个社区的分类精度相对较差。

      表 5  以社区为单元的分类精度和特征值

      Table 5.  Classification Accuracy and Top-7 Feature Values of Each Community

      社区 分类精度 Top-7特征
      F1 F2 F3 F4 F5 F6 F7
      泽德 0.91 3.52 3.32 2.86 2.06 7 3.98 1.74
      广和 0.90 2.72 2.85 1.18 1.55 2、9 3.69 1.58
      王圣堂 0.89 0.74 0.70 0.5 0.51 7、2 1.20 0.52
      应元 0.89 1.85 1.82 1 1.10 7 2.48 1.04
      祈福 0.87 8.71 8.04 5.23 4.99 7 9.72 4.31
      小梅 0.86 2.28 2.09 1.11 1.29 2、1 2.63 1.19
      石溪 0.84 2.26 2.13 1.02 1.33 7 2.93 1.28
      三堂 0.84 1.64 1.53 1.25 1.08 1、2、7 2.44 1.07
      怡东 0.83 5.45 5.19 5 3.18 2、1 6.38 2.92
      新街 0.81 1.58 1.53 0.76 0.97 1 2.43 1.14
      吉祥 0.79 1.85 1.65 0.96 1.08 7、2 2.29 1.00
      穗华 0.77 2.29 2.16 1.59 1.36 7、1 2.61 1.19
      先锋 0.77 2.48 2.69 1.92 1.68 7、9、1 3.93 1.73
      康乐中 0.74 2.61 2.54 2.01 1.61 1 3.09 1.48
      麓苑 0.74 2.70 2.51 0.87 1.58 7 3.11 1.37
      洪庆坊 0.73 1.18 1.11 0.38 0.69 7 1.61 0.68
      天河直街 0.69 3.67 3.42 2.55 2.17 1、9 4.68 2.13
      中大 0.65 2.90 2.74 2.08 1.75 1、4 3.73 1.73
      整体均值 0.74 3.23 3.05 1.95 2.81 3.89 1.76
      注:F5中1、2、4、7、9分别表示HWH、HWH+、HWHWH、HW+WH、H++H

      为了得到在不同的训练样本分布情况下各特征的重要性差异,在训练样本中分别抽取低收入、中等收入人群作为一组,中等收入、高收入人群为一组,低收入、高收入人群为一组,进行3组随机森林的模型训练以及特征重要性评价。图 3为在3个分组中的各特征值重要性排序。从图 3可以看出,F1~F4、F6、F7在3组分类测试中均具有较高的重要性,说明无论样本特点如何,这几个特征对于个体收入水平推断都非常重要。此外,F1对于低-中、中-高收入人群的区分较为重要。F5、F8和F9对于低-高收入人群间的区分具有较高的重要性。F5在中-高收入人群的分类中重要性较低。F10~F13对于3类人群两两间分类的重要性均相对较低。

      图  3  各个特征在区分低-中、中-高、低-高收入人群中的重要性比较

      Figure 3.  Feature Importance in Low and Medium, Medium and High, and Low and High Income Residents

    • 本文基于广州市2013年居民出行日志调查数据,从居民出行轨迹的移动模性指标、基于居住地的出行特征和居民出行活动链模式3个维度提取了13个个体出行活动特征。利用随机森林方法进行基于居民出行活动特征的个体经济收入水平的推断。结果表明,本文的方法能够获得总体80%的个体经济收入水平推断精度。本文的研究也存在以下的不足:首先,本文方法对低收入群体和高收入群体的分类精度较低,未来考虑将居民居住地的房价特征、出行方式、出行目的等语义属性纳入到本文的出行特征集中,提高对个体经济收入水平的推断精度。其次,目前模型的数据为广州市居民出行调查日志数据,模型精度以及特征的重要性也主要依赖广州市居民的出行特点,后续可以结合其他城市的数据进行比较研究。

参考文献 (15)

目录

    /

    返回文章
    返回