留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

利用时序手机通话数据识别城市用地功能

彭正洪 孙志豪 程青 焦洪赞 陈伟

彭正洪, 孙志豪, 程青, 焦洪赞, 陈伟. 利用时序手机通话数据识别城市用地功能[J]. 武汉大学学报 ● 信息科学版, 2018, 43(9): 1399-1407, 1437. doi: 10.13203/j.whugis20170329
引用本文: 彭正洪, 孙志豪, 程青, 焦洪赞, 陈伟. 利用时序手机通话数据识别城市用地功能[J]. 武汉大学学报 ● 信息科学版, 2018, 43(9): 1399-1407, 1437. doi: 10.13203/j.whugis20170329
PENG Zhenghong, SUN Zhihao, CHENG Qing, JIAO Hongzan, CHEN Wei. Urban Land Use Function Recognition Method Using Sequential Mobile Phone Data[J]. Geomatics and Information Science of Wuhan University, 2018, 43(9): 1399-1407, 1437. doi: 10.13203/j.whugis20170329
Citation: PENG Zhenghong, SUN Zhihao, CHENG Qing, JIAO Hongzan, CHEN Wei. Urban Land Use Function Recognition Method Using Sequential Mobile Phone Data[J]. Geomatics and Information Science of Wuhan University, 2018, 43(9): 1399-1407, 1437. doi: 10.13203/j.whugis20170329

利用时序手机通话数据识别城市用地功能

doi: 10.13203/j.whugis20170329
基金项目: 

国家自然科学基金 41401400

详细信息

Urban Land Use Function Recognition Method Using Sequential Mobile Phone Data

Funds: 

The National Natural Science Foundation of China 41401400

More Information
    Author Bio:

    PENG Zhenghong, professor, specializes in engineering graphics, computer graphics and digital city. E-mail: laopeng129@vip.sina.com

    Corresponding author: CHENG Qing, PhD, lecturer. E-mail: qingcheng@whu.edu.cn
  • 摘要: 城市土地利用是人的活动与城市物质空间交互所表现出的综合结果,因此人的活动与城市土地利用功能密切相关;具有不同时间段人的活动的空间聚集与分散规律的区域,其所属的社会功能属性亦不相同。随着大数据时代的到来,以居民手机数据为代表的基于位置的服务数据(local basic service,LBS)大量出现,使得实现时空全覆盖和精细化地监测城市人的活动成为可能。因此,利用手机数据的优势,能够实现从人的角度来区分识别城市用地功能类型。利用手机通话详单数据(call detail records,CDRs)提取面向地块尺度的居民通话聚合时序特征,提出了一种城市土地利用类型谱聚类识别方法。以武汉市为例进行实验分析,结果表明,该方法识别城市土地利用的平均精度为54.6%,为探知城市土地利用空间分布提供了一个有效的方法。
  • 图  1  武汉市主城区范围及基站点分布(2016年)

    Figure  1.  Main Urban Area and Distribution of Mobile Base Stations of Wuhan City (2016)

    图  2  武汉市主城区街坊单元划分分布

    Figure  2.  Distribution of Streetunit in Main Urban Area of Wuhan City

    图  3  街坊单元预处理结果示意图(去除长江和沙湖等水体区域)

    Figure  3.  Pretreatment Results of Streetunit (Removal of Water Areas Such as the Yangtze River and Shahu)

    图  4  不同时段手机通话密度图

    Figure  4.  Usage Density Diagram of Mobile Phone Volume in 24 Hours

    图  5  不同单元区域内手机通话密度时序变化图

    Figure  5.  Temporal Variation Diagram of Mobile Phone Call Density in Different Areas

    图  6  不同聚类k值的计算结果

    Figure  6.  Calculation Results with Different k Values

    图  7  不同聚类k值得分

    Figure  7.  Calinski-Harabaz Scores of Different k Values

    图  8  武汉市总体规划土地利用图(2010-2020年)

    Figure  8.  Wuhan City Master Plan Land Use Map (2010-2020)

    图  9  各类别典型单元通话密度时序变化特征

    Figure  9.  Temporal Characteristics of Mobile Phone Call Density in Typical Units of Different Classes

    表  1  手机基站数据记录信息表

    Table  1.   Records of Mobile Base Stations

    用户身份标识号 记录时间 区域码(LAC) 基站编码(CID)
    00000001 20**-**-**T15:39:14-000000 712D 0E1E
    00000002 20**-**-**T15:22:41-000000 708B 63D1
    00000004 20**-**-**T16:46:44-000000 703D 4598
    下载: 导出CSV

    表  2  基站信息表

    Table  2.   Base Station Information

    基站识别号 经度/(°) 纬度/(°)
    286****852 114.404 9 30.406 45
    291****537 114.163 0 30.476 21
    287****065 114.421 8 30.422 47
    下载: 导出CSV

    表  3  聚类结果与总体规划土地利用对比表

    Table  3.   Comparison of Clustering Results and Master Plan Land Use

    用地类型 C0 C1 C2 精度
    居住用地 649 233 408 0.503
    行政办公用地 4 22 14 0.550
    商业金融用地 45 122 131 0.439
    文化娱乐用地 12 11 11 0.353
    体育用地 15 0 8 0.652
    医疗卫生用地 3 5 4 0.417
    教育科研用地 22 18 67 0.626
    市场用地 8 18 10 0.500
    工业用地 86 112 22 0.509
    仓储用地 8 2 0 0.800
    对外交通用地 5 4 2 0.455
    市政设施用地 11 0 2 0.846
    绿地 150 89 57 0.507
    特殊用地 0 1 1
    下载: 导出CSV
  • [1] Tao P, Sobolevsky S, Ratti C, et al. A New Insight into Land Use Classification Based on Aggregated Mobile Phone Data[J]. International Journal of Geographical Information Science, 2014, 28(9):1988-2007 doi:  10.1080/13658816.2014.913794
    [2] Foody G M. Fully Fuzzy Supervised Classification of Land Cover from Remotely Sensed Imagery with an Artificial Neural Network[J]. Neural Computing & Applications, 1997, 5(4):238-247 doi:  10.1007/BF01424229
    [3] Zhong Y, Zhu Q, Zhang L. Scene Classification Based on the Multifeature Fusion Probabilistic Topic Model for High Spatial Resolution Remote Sensing Imagery[J]. IEEE Transactions on Geoscience & Remote Sensing, 2015, 53(11):6207-6222 http://ieeexplore.ieee.org/document/7119589/
    [4] Zhong Y, Zhao B, Zhang L. Multiagent Object-Based Classifier for High Spatial Resolution Imagery[J]. IEEE Transactions on Geoscience & Remote Sensing, 2013, 52(2):841-857 http://ieeexplore.ieee.org/document/6494281/
    [5] Liu Y, Liu X, Gao S, et al. Social Sensing:A New Approach to Understanding Our Socioeconomic Environments[J].Annals of the Association of Ame-rican Geographers, 2015, 105(3):512-530 doi:  10.1080/00045608.2015.1018773
    [6] 龙瀛, 张宇, 崔承印.利用公交刷卡数据分析北京职住关系和通勤出行[J].地理学报, 2012, 67(10):1339-1352 doi:  10.11821/xb201210005

    Long Ying, Zhang Yu, Cui Chengyin. Identifying Commuting Pattern of Beijing Using Bus Smart Card Data[J]. Acta Geographica Sinica, 2012, 67(10):1339-1352 doi:  10.11821/xb201210005
    [7] Liu Y, Wang F, Xiao Y, et al. Urban Land Uses and Traffic Source-Sink Areas:Evidence from GPS-Enabled Taxi Data in Shanghai[J]. Landscape & Urban Planning, 2012, 106(1):73-87 http://www.sciencedirect.com/science/article/pii/S0169204612000631
    [8] Yao Y, Li X, Liu X, et al. Sensing Spatial Distribution of Urban Land Use by Integrating Points-of-Interest and Google Word2Vec Model[J]. International Journal of Geographical Information Systems, 2016, 31(4):825-848 doi:  10.1080/13658816.2016.1244608
    [9] Steenbruggen J, Tranos E, Nijkamp P. Data from Mobile Phone Operators:A Tool for Smarter Cities?[J]. Telecommunications Policy, 2015, 39(3):335-346 http://www.sciencedirect.com/science/article/pii/S0308596114000603
    [10] 徐仲之, 曲迎春, 孙黎, 等.基于手机数据的城市人口分布感知[J].电子科技大学学报, 2017, 46(1):126-132 doi:  10.3969/j.issn.1001-0548.2017.01.018

    Xu Zhongzhi, Qu Yingchun, Sun Li, et al. Urban Population Sensing via Mobile Phone Data[J]. Journal of University of Electronic Science and Technology of China, 2017, 46(1):126-132 doi:  10.3969/j.issn.1001-0548.2017.01.018
    [11] 钮心毅, 丁亮, 宋小冬, 等.基于手机数据识别上海中心城的城市空间结构[J].城市规划学刊, 2014(6):61-67 doi:  10.3969/j.issn.1000-3363.2014.06.009

    Niu Xinyi, Ding Liang, Song Xiaodong, et al.Understanding Urban Spatial Structure of Shanghai Central City Based on Mobile Phone Data[J]. Urban Planning Forum, 2014(6):61-67 doi:  10.3969/j.issn.1000-3363.2014.06.009
    [12] Tu W, Cao J, Yue Y, et al. Coupling Mobile Phone and Social Media Data:A New Approach to Understanding Urban Functions and Diurnal Patterns[J]. International Journal of Geographical Information Science, 2017, 31(12):2331-2358 doi:  10.1080/13658816.2017.1356464
    [13] Toole J L, Ulm M, Bauer D. Inferring Land Use from Mobile Phone Activity[C]. The ACM SIGKDD International Workshop on Urban Computing, Beijing, China, 2012
    [14] González M C, Hidalgo C A, Barabási A L. Understanding Individual Human Mobility Patterns[J]. Nature, 2008, 453(7196):779-782 doi:  10.1038/nature06958
    [15] Kuusik A, Ahas R, Tiru M. Analysing Repeat Visitation on Country Level with Passive Mobile Positioning Method:An Estonian Case Study[J]. Discussions on Estonian Economic Policy, 2009, 17:140-155 http://www.researchgate.net/publication/307685047_Analysing_Repeat_Visitation_on_Country_Level_with_Passive_Mobile_Positioning_Method_an_Estonian_Case_Study
    [16] Song C, Qu Z, Blumm N, et al. Limits of Predictability in Human Mobility[J]. Science, 2010, 327(5968):1018-1021 doi:  10.1126/science.1177170
    [17] Traag V A, Browet A, Calabrese F, et al. Social Event Detection in Massive Mobile Phone Data Using Probabilistic Location Inference[C]. The Third International Conference on Privacy, Security, Risk and Trust, Boston, USA, 2011
    [18] Luxburg U. A Tutorial on Spectral Clustering[J]. Statistics & Computing, 2007, 17(4):395-416 doi:  10.1007-s11222-007-9033-z/
    [19] Shi J, Malik J. Normalized Cuts and Image Segmentation[J].IEEE Transactions on Pattern Analysis & Machine Intelligence, 2000, 22(8):888-905 http://d.old.wanfangdata.com.cn/Periodical/jsjyyyj200702054
    [20] Caliński T, Harabasz J. A Dendrite Method for Cluster Analysis[J]. Communications in Statistics, 1974, 3(1):1-27 doi:  10.1080-03610927408827101/
    [21] Calabrese F, Ferrari L, Blondel V D. Urban Sen-sing Using Mobile Phone Network Data:A Survey of Research[J]. ACM Computing Surveys (CSUR), 2015, 47(2):1-25 https://www.sciencedirect.com/science/article/pii/S1566253517303421
    [22] Louail T, Lenormand M, Cantu Ros O G, et al. From Mobile Phone Data to the Spatial Structure of Cities[J]. Scientific Reports, 2014, 4:5276-5290 http://pubmedcentralcanada.ca/pmcc/articles/PMC4055889/
  • [1] 李延, 王大魁, 耿晶, 王树良.  数据质量聚类算法 . 武汉大学学报 ● 信息科学版, 2019, 44(1): 153-158. doi: 10.13203/j.whugis20150760
    [2] 崔晓杰, 王家耀, 巩现勇, 赵耀.  利用模糊密度聚类和双向缓冲区自动识别热点区 . 武汉大学学报 ● 信息科学版, 2019, 44(1): 84-91. doi: 10.13203/j.whugis20180358
    [3] 门计林, 刘越岩, 张斌, 周繁.  多结构卷积神经网络特征级联的高分影像土地利用分类 . 武汉大学学报 ● 信息科学版, 2019, 44(12): 1841-1848. doi: 10.13203/j.whugis20180137
    [4] 姚尧, 张亚涛, 关庆锋, 麦可, 张金宝.  使用时序出租车轨迹识别多层次城市功能结构 . 武汉大学学报 ● 信息科学版, 2019, 44(6): 875-884. doi: 10.13203/j.whugis20170111
    [5] 杜娟, 李维, 张鹏林.  夜间陆地辐射雾的遥感时序数据检测 . 武汉大学学报 ● 信息科学版, 2019, 44(8): 1162-1168. doi: 10.13203/j.whugis20170258
    [6] 谷岩岩, 焦利民, 董婷, 王艳东, 许刚.  基于多源数据的城市功能区识别及相互作用分析 . 武汉大学学报 ● 信息科学版, 2018, 43(7): 1113-1121. doi: 10.13203/j.whugis20160192
    [7] 付子圣, 李秋萍, 柳林, 周素红.  利用GPS轨迹二次聚类方法进行道路拥堵精细化识别 . 武汉大学学报 ● 信息科学版, 2017, 42(9): 1264-1270. doi: 10.13203/j.whugis20150036
    [8] 朱进, 胡斌, 邵华.  基于多重运动特征的轨迹相似性度量模型 . 武汉大学学报 ● 信息科学版, 2017, 42(12): 1703-1710. doi: 10.13203/j.whugis20150594
    [9] 孔令桥, 秦昆, 龙腾飞.  利用二型模糊聚类进行全球海表温度数据挖掘 . 武汉大学学报 ● 信息科学版, 2012, 37(2): 215-219.
    [10] 刘一宁, 蓝秋萍, 费立凡.  土地利用数据库中大比例尺面状道路数据缩编研究 . 武汉大学学报 ● 信息科学版, 2012, 37(9): 1108-1111.
    [11] 朱江洪, 李江风, 叶菁.  利用决策树工具的土地利用类型遥感识别方法研究 . 武汉大学学报 ● 信息科学版, 2011, 36(3): 301-305.
    [12] 艾廷华, 杨帆, 李精忠.  第二次土地资源调查数据建库中的土地利用图综合缩编 . 武汉大学学报 ● 信息科学版, 2010, 35(8): 887-891.
    [13] 刘耀林, 李红梅, 杨淳惠.  基于本体的土地利用数据综合研究 . 武汉大学学报 ● 信息科学版, 2010, 35(8): 883-886.
    [14] 高文秀, 朱俊杰, 侯建光.  探索性数据分析在土地利用数据分析中的应用 . 武汉大学学报 ● 信息科学版, 2009, 34(12): 1502-1506.
    [15] 万幼川, 黄俊.  几何和图论特征对高分辨率遥感影像土地利用分类的影响 . 武汉大学学报 ● 信息科学版, 2009, 34(7): 794-798.
    [16] 徐昔保, 杨桂山, 张建明.  兰州市城市土地利用优化研究 . 武汉大学学报 ● 信息科学版, 2009, 34(7): 878-881.
    [17] 陈先伟, 郭仁忠, 闫浩文.  土地利用数据库综合中图斑拓扑关系的创建和一致性维护 . 武汉大学学报 ● 信息科学版, 2005, 30(4): 370-373.
    [18] 潘励, 郑宏, 张祖勋, 张剑清.  集成高度和彩色纹理特征的影像目标模糊聚类识别方法 . 武汉大学学报 ● 信息科学版, 2004, 29(4): 311-314.
    [19] 罗平, 杜清运, 雷元新, 王涛.  地理特征元胞自动机及城市土地利用演化研究 . 武汉大学学报 ● 信息科学版, 2004, 29(6): 504-507,512.
    [20] 艾廷华, 刘耀林.  土地利用数据综合中的聚合与融合 . 武汉大学学报 ● 信息科学版, 2002, 27(5): 486-492.
  • 加载中
图(9) / 表(3)
计量
  • 文章访问数:  1535
  • HTML全文浏览量:  151
  • PDF下载量:  327
  • 被引次数: 0
出版历程
  • 收稿日期:  2018-01-30
  • 刊出日期:  2018-09-05

利用时序手机通话数据识别城市用地功能

doi: 10.13203/j.whugis20170329
    基金项目:

    国家自然科学基金 41401400

    作者简介:

    彭正洪, 教授, 主要从事工程图学、计算机图形学与数字城市研究。laopeng129@vip.sina.com

    通讯作者: 程青, 博士, 讲师。qingcheng@whu.edu.cn
  • 中图分类号: P208

摘要: 城市土地利用是人的活动与城市物质空间交互所表现出的综合结果,因此人的活动与城市土地利用功能密切相关;具有不同时间段人的活动的空间聚集与分散规律的区域,其所属的社会功能属性亦不相同。随着大数据时代的到来,以居民手机数据为代表的基于位置的服务数据(local basic service,LBS)大量出现,使得实现时空全覆盖和精细化地监测城市人的活动成为可能。因此,利用手机数据的优势,能够实现从人的角度来区分识别城市用地功能类型。利用手机通话详单数据(call detail records,CDRs)提取面向地块尺度的居民通话聚合时序特征,提出了一种城市土地利用类型谱聚类识别方法。以武汉市为例进行实验分析,结果表明,该方法识别城市土地利用的平均精度为54.6%,为探知城市土地利用空间分布提供了一个有效的方法。

English Abstract

彭正洪, 孙志豪, 程青, 焦洪赞, 陈伟. 利用时序手机通话数据识别城市用地功能[J]. 武汉大学学报 ● 信息科学版, 2018, 43(9): 1399-1407, 1437. doi: 10.13203/j.whugis20170329
引用本文: 彭正洪, 孙志豪, 程青, 焦洪赞, 陈伟. 利用时序手机通话数据识别城市用地功能[J]. 武汉大学学报 ● 信息科学版, 2018, 43(9): 1399-1407, 1437. doi: 10.13203/j.whugis20170329
PENG Zhenghong, SUN Zhihao, CHENG Qing, JIAO Hongzan, CHEN Wei. Urban Land Use Function Recognition Method Using Sequential Mobile Phone Data[J]. Geomatics and Information Science of Wuhan University, 2018, 43(9): 1399-1407, 1437. doi: 10.13203/j.whugis20170329
Citation: PENG Zhenghong, SUN Zhihao, CHENG Qing, JIAO Hongzan, CHEN Wei. Urban Land Use Function Recognition Method Using Sequential Mobile Phone Data[J]. Geomatics and Information Science of Wuhan University, 2018, 43(9): 1399-1407, 1437. doi: 10.13203/j.whugis20170329
  • 城市土地利用是指城市中工业、交通、商业、文化、教育、卫生、住宅和公园绿地等建设用地的状况,相较于城市土地覆盖而言,城市土地利用是人的社会活动与城市物质空间之间的交互所表现出的综合结果,因而其应具有社会属性[1]。传统城市土地利用现状的调研方法是通过开展大量的访谈、问卷等实地调研活动,更新城市历史土地利用现状图。该方法耗时、耗力, 准确性严重依赖于调研人员的专业技术能力及工作经验,且难以及时动态地反映城市土地利用全貌。随着城市遥感技术的发展,特别是城市高分辨率遥感数据的广泛应用,大量面向遥感数据的城市土地利用现状调研方法陆续涌现[2-4]。虽然基于遥感技术的土地利用调研方法能够很好地捕捉城市功能区的物理属性(光谱特征、纹理特征、形状特征),且机器学习方法的引入试图跨越遥感图像物理特征与城市功能区之间的“语义鸿沟”,但是由于缺少能够从社会层面来反映城市土地利用的语义信息[5],目前其识别类别的精细程度与识别精度仍无法满足城市研究者的需求。

    人的活动,具体说是人的社会行为的时空特征,与城市土地利用功能密切相关,通过不同时间段人的活动的空间聚集与分散规律,可以直接反映地块的社会功能属性。以居住区与商务办公区为例,在工作时间段,人们从居住区向商业办公区聚集;而在休息时间段,人们会陆续返回居住区。如今已经进入了大数据时代,随着基于位置服务(local basic service, LBS)技术的快速发展,各种海量的居民位置数据层出不穷,为人们通过居民活动规律研究土地利用性质提供了机遇[6-8]

    相较于上述数据而言,居民随身携带的手机终端所产生的数据,包括手机信令数据和手机通话详单数据(call detail records, CDRs),由于其能够获取近似全样本的城市居民精细时空活动轨迹,通过手机数据所拥有的时空特性,可以快速推测出近似城市全域范围内居民活动的时空分布特征,因此利用手机数据进行城市实时动态研究具有可行性。当前,已有相关学者关注到手机数据在城市研究中的应用潜力[9]。文献[10]利用手机数据和实际人口分布建立非线性回归模型来感知城市人口分布;文献[11]基于手机信令数据在不同特定时段的密度变化, 利用局部空间自相关指数(local indicators of spatial association, LISA)进行了上海中心城的功能区识别;文献[12]通过使用手机数据探测居民活动位置变化来识别居住地和工作地,并结合社交数据探测居民社交活动来进行城市用地功能识别;文献[13]将手机数据按工作日和非工作日分别按小时进行聚合, 通过随机森林算法研究手机数据和城市土地利用之间的关系;文献[1]将手机数据按格网进行每小时聚合,然后将一星期数据聚合成4 d, 通过模糊C均值算法进行城市土地利用识别。上述对于城市土地利用分析的研究中,通过手机数据而提取出的居民行为规律在时间尺度上被不同程度地聚合(例如,按工作时间与休息时间段进行聚合), 以解决时序特征的高维度问题。

    在上述分析的基础上,本文利用CDRs提取面向地块尺度的居民通话聚合时序特征,提出了一种新的城市土地利用聚类识别方法。以CDRs为数据基础,通过挖掘城市微观单元的人口活跃度时序变化特征来分析不同类型单元间的特征差异,然后依据该时序特征差异进行单元聚类分析,并将结果与现有土地利用规划图进行对比, 以探知人口手机通话活跃度与土地利用之间的关系。

    • 由于基站信号强度会随距离增大而衰减,因此居民在进行通信时手机终端一般会选择距离自己较近的基站进行通信连接[14],同时在服务器中将该通信行为记录为一条CDR数据。该数据包含居民手机ID、通话时间、通信基站ID等信息。以基站为统计单元,可统计在一个时间段内,每个小时的时间片段中,该基站发生通信的累计次数,即基站通信时序特征。理想情况下,移动基站的覆盖范围一般满足正六边形的蜂窝网络结构;而实际由于地形与建筑物高度、人群密度等影响,基站的覆盖范围往往不规则。依据基站信号的距离衰减规则,本文通过生成基站站点的Voronoi图来估算基站信号服务范围[14-17]

      为了实现以地块为空间统计单元提取居民通话聚合时序特征,本文假设同一基站服务范围内居民为均匀分布,通过空间面域叠加分析操作,以统计地块单位内各个基站点Voronoi图的面积比率为权重,统计获得地块单位居民通话聚合时序特征。

      研究单元通话量计算公式为:

      $$ {{p}_{i}}=\sum\limits_{j=1}^{n}{{{T}_{j}}\times \frac{{{S}_{i, j}}}{{{S}_{j}}}\ \ \ \ \left( i=1, 2\cdots m \right)} $$ (1)

      式中,pi表示第i个街坊单元通话量;m表示街坊单元数量;Tj为第j个基站通话流量特征;n表示共有n个基站Voronoi图与该街坊单元相交;Si, j为该相交面积;Sj为该Voronoi图总面积。

    • 以小时为时间统计单元,获得地块1周时间内的通话聚合时序特征,其特征维度为7×24=168维。传统聚类方法,如k-means、基于密度的带有噪声的空间聚类(density-based spatial clustering of applications with noise, DBSCAN)在面对凸型簇样本时能够较为准确的区分,然而在面对非凸簇或环状簇等高维流形簇时,无法进行很好的区分。谱聚类是基于图论的聚类算法,其通过构造样本间相似度矩阵、计算相似度矩阵的特征值和特征向量的方法来达到类似于降维的目的。因此,面对如此高维度的聚类问题,谱聚类相较于k-means和DBSCAN而言能够更好地识别高维数据的聚类特征。本文采用符合高维空间特性的谱聚类算法进行城市土地利用分析。

      谱聚类的主要思想是将样本聚类问题转化为图分割问题:通过地块间的通话聚合时序特征相似度构建加权无向图,然后找到最优分割使得同一组间权重尽可能高而不同组间权重尽可能低[18]。为了更好地计算同类地块间通话聚合时序特征曲线的“波峰与波谷”特征的相似性,本文采用余弦距离:

      $$ \begin{align} &\ \ \ \ \ \ d=1-\cos \theta = \\ &1-\frac{\sum\limits_{i, j=1}^{n}{{{p}_{i}}\times {{p}_{j}}}}{\sqrt{\sum\limits_{i=1}^{n}{{{\left( {{p}_{i}} \right)}^{2}}}}\times \sqrt{\sum\limits_{j=1}^{n}{{{\left( {{p}_{j}} \right)}^{2}}}}} \\ \end{align} $$ (2)

      式中,d的值域为[0, 2],越接近0表示样本间相似度越高,越接近2表示样本间相似度越低。以居民活动时序特征相似度为权重边构建加权无向图。将不同地块单元视为结点,地块单元间以余弦距离为边进行连接,然后把聚类问题转化为图分割问题。目前常用的分割方法为正则化分割,主要思想是通过矩阵变换将图分割问题转化为矩阵特征值求解问题[19]

      对于正则化分割,将上述加权无向图转化为邻接矩阵。设其邻接矩阵为E,度矩阵为D,则对应Laplacian矩阵L及归一化后L′为:

      $$ \begin{align} &\mathit{\boldsymbol{L}}=\mathit{\boldsymbol{D}}-\mathit{\boldsymbol{E}}, \\ &\mathit{\boldsymbol{L}}'={{\mathit{\boldsymbol{D}}}^{-1/2}}\mathit{\boldsymbol{L}}{{\mathit{\boldsymbol{D}}}^{-1/2}}=\mathit{\boldsymbol{I}}-{{\mathit{\boldsymbol{D}}}^{-1/2}}\mathit{\boldsymbol{E}}{{\mathit{\boldsymbol{D}}}^{-1/2}} \\ \end{align} $$ (3)

      通过对L′进行特征值求解,对特征值依据对应的特征向量进行聚类,即可实现图分割。

      将聚类结果与土地利用现状图进行对比,结合聚类结果中各类别居民活动时序特征进行聚类识别,即可得出各类别具体含义。由于谱聚类本质上是无监督聚类,没有输出样本用来进行聚类结果评估。因此,本文采用Calinski-Harabaz指数来对聚类结果进行评估。Calinski-Harabaz指数是通过计算聚类中簇内间的紧密程度和簇间的离散程度来综合衡量聚类效果[20]。其计算公式是:

      $$ s\left( k \right)=\frac{\text{tr}\left( {{\mathit{\boldsymbol{B}}}_{k}} \right)}{\text{tr}\left( {{\mathit{\boldsymbol{W}}}_{k}} \right)}\times \frac{m\text{-}k}{k-1} $$ (4)

      式中,m表示谱聚类中样本数;k为聚类类别数;Bk为类别间协方差矩阵;Wk为类别内部协方差矩阵;tr为矩阵的迹。从式(4)可看出,当聚类效果越好时,簇内协方差矩阵越小,簇间协方差矩阵越大,因此所得s得分会越高。

    • 武汉市面积8 494.41 km2,常住人口1 076.62万人。2016年,全市已有移动基站点33 765个。基站覆盖范围与基站分布密度具有高度相关性,城市中基站范围一般为500 m左右,郊区由于基站较为稀疏,一般为1~2 km[21]。基站密集区域集中分布于主城区三环线以内,为保证基站定位数据的相对准确,本次的研究区域以武汉三环线以内区域为主,另包括外延的沌口、武钢、庙山等地区,总面积约为678 km2(见图 1),区域内大部分基站覆盖范围在500 m以内。

      图  1  武汉市主城区范围及基站点分布(2016年)

      Figure 1.  Main Urban Area and Distribution of Mobile Base Stations of Wuhan City (2016)

      本文使用的实验数据为武汉市2016年(共7 d)的手机通话详单数据及基站数据。如表 1所示,通信基站记录信息包含有用户标识码(加密后)、记录时间(精确到s)、记录基站信息。通信定位数据每天平均约有3 000万记录,与已有的基站数据(表 2)通过属性连接即可获取用户个体时空位置信息。不同单元尺度下,单元内土地利用类型混合程度不同,同时, 其不同类型居民手机行为特征混合亦不相同,从而使得单元间CDRs时序特征混合而差异缩小。当尺度达到一定范围时(例如,以整个城市为研究尺度单元),由于该尺度下各区域均是功能高度混合,其居民行为时序特征会趋于一致[22]。因此, 研究单元尺度的界定直接影响着单元内土地利用类型的混合程度。为便于区分不同单元间的特征差异,所确定的基本单元内土地利用类型应相对单一,如图 2所示,本文采用的基本研究单元为城市规划中常用的街坊单元,其单元边界主要结合周边交通网络和实际企事业单位边界来划定。对于不同的城市用地规划,通常则是按该街坊单元进行统一规划,因此实际中其单元内土地利用类型相对单一。前期通过随机抽样对街坊单元时序特征进行距离对比,综合土地利用现状进行分析,结果显示,街坊单元内土地利用类型相对较为单一,能够作为本文研究的基本单元。

      表 1  手机基站数据记录信息表

      Table 1.  Records of Mobile Base Stations

      用户身份标识号 记录时间 区域码(LAC) 基站编码(CID)
      00000001 20**-**-**T15:39:14-000000 712D 0E1E
      00000002 20**-**-**T15:22:41-000000 708B 63D1
      00000004 20**-**-**T16:46:44-000000 703D 4598

      表 2  基站信息表

      Table 2.  Base Station Information

      基站识别号 经度/(°) 纬度/(°)
      286****852 114.404 9 30.406 45
      291****537 114.163 0 30.476 21
      287****065 114.421 8 30.422 47

      图  2  武汉市主城区街坊单元划分分布

      Figure 2.  Distribution of Streetunit in Main Urban Area of Wuhan City

    • 本文以街坊单元为基本研究单元,通过手机数据来反映单元手机通话量变化,从而构建研究单元手机通话流量变化特征; 使用谱聚类算法对研究单元特征进行聚类分析,具有相同特征的单元归为一类, 以识别土地利用类型。

    • 一般而言,大多数人类活动都是在陆地上进行的,而在湖面或江面上进行的活动则较少(除去跨江等行为)。由于武汉城区内湖泊较多,因此在使用街坊单元作为研究基本单元前,首先需要除去单元中水体所覆盖的部分,以提高单元内人们的真实活动区域精度。

      通过2016年武汉市Landsat 8遥感影像数据进行地物识别,影像空间分辨率为30 m。首先, 人工选择部分区域作为分类训练样本; 然后, 使用最大似然法分类(建筑、绿地、裸土和水体,共4类)。之后, 提取分类结果中水体部分与研究基本单元进行叠加分析,除去研究单元中水体,以得到去除水体后的研究基本单元。去除水体效果如图 3所示。

      图  3  街坊单元预处理结果示意图(去除长江和沙湖等水体区域)

      Figure 3.  Pretreatment Results of Streetunit (Removal of Water Areas Such as the Yangtze River and Shahu)

    • 所获得的原始通话数据记录为每次通话信息,日平均数据量在3 000万以上。数据量大,且部分记录存在错误,无法直接使用。因此将数据导入SQL SERVER数据库,通过编写SQL语言,进行以下处理:

      1) 将表 1中记录时间字段进行拆分,以便能够查询不同时段数据;

      2) 根据区域码(LAC)和基站编码(CID)字段将记录信息按不同基站分时段进行统计(统计单位为h);

      3) 将LAC和CID字段的16进制转换为10进制,并以字符串相连;

      4) 将表 1表 2进行数据表连接, 以得到基站的地理信息。

      统计结果为基站通话流量二维时间序列模型Ti,j, 其中, i=1, 2…21 399,为基站点编号;j=1, 2…168,为各时段手机通话频率。1~24为第一天数据,25~48为第二天数据,共7 d数据,依此类推。应用式(1),将基站通话模型Ti,j与街坊单元进行叠加分析,得出街坊单元通话流量时序模型,即单元内居民活动特征模型Pi,j, 其中,i=1, 2…2 395,为街坊单元序列号;j=1, 2…168,为各时段手机通话频率。

      通过对Pi,j不同时段居民活动特征对比可看出(见图 4),晚上(凌晨3时)时段和白天(下午3时)时段居民活动分布显著不同:晚上活动总体偏少,通话密度相对较高的区域首先是汉口火车站和武昌火车站等夜间相对活跃区域,其次是住宅集中分布区域;而白天活动偏多,通话密度相对较高区域则集中于江汉路、钟家村、中南路、光谷广场等各商圈商业办公地集中区域。

      图  4  不同时段手机通话密度图

      Figure 4.  Usage Density Diagram of Mobile Phone Volume in 24 Hours

      随机抽样选择Pi,j 时序模型中6个具有不同用地类型的街坊单元进行时序变化对比。如图 5(a)5(b)所示,以居住为主的研究单元(虚线部分)中通话密度总体相对较低,变化较为平滑;以商业和工作为主的研究单元(实线部分)中通话密度总体相对较高,在9~10时和15时左右均有峰值,而在12时有局部低值,变化较为剧烈。同时,以商业为主的街道口在工作日和休息日的手机通话量变化不明显,同样以商业为主的万达步行街和以软件开发工作为主的光谷软件园则均有明显的下降,说明不同用地类型具有不同的手机通话密度变化,且即使相同用地类型,由于商业性质不同,其变化特征亦不相同。

      图  5  不同单元区域内手机通话密度时序变化图

      Figure 5.  Temporal Variation Diagram of Mobile Phone Call Density in Different Areas

      将上述各单元通话密度进行归一化后(将各时段通话次数除以24 h总通话次数),得出归一化后的手机通话密度时序变化,如图 5(c)5(d)所示。从图 5(c)中可看出,在工作日中以居住社区为主的单元,其通话量在早上4~5时左右开始有上升趋势,峰值在早上8时和晚上17时左右;而以工作、商业为主的单元通话量在上午6时后开始上升,峰值在上午9时和下午14~15时左右。而对于休息日时段,如图 5(d)所示,两类不同类型的单元上午时序变化没有明显差异,下午时以商业、工作为主的单元通话密度均大于以居住为主的单元。

    • 本文以Python为平台编写谱聚类算法,以居民活动时序特征为基本研究单元的特征变量,对研究单元进行聚类分析。由于天兴洲(图 6中灰色区域)所处街坊单元不在现有规划用地之内,因此除去对应的3个街坊单元,不参与聚类分析。不同聚类数条件下的聚类结果如图 6所示。图 6中,C0C1C2C3C4C5为聚类类别。

      图  6  不同聚类k值的计算结果

      Figure 6.  Calculation Results with Different k Values

      计算不同聚类数条件下Calinski-Harabaz指数得分情况,根据实际聚类结果中簇内差异和簇间差异来选择聚类数。从图 7中可以看出, 当k=3时所得得分最高,随着k值增大, 得分逐渐降低,并在k=7和k=10时达到局部极值。因此,本文主要根据k=3时的聚类结果进行土地利用识别分析。

      图  7  不同聚类k值得分

      Figure 7.  Calinski-Harabaz Scores of Different k Values

    • 城市总体规划是对城市发展的总体把握,其总体规划用地是规划者们从规划当时实际现状出发,同时综合经济、环境、区域关系等各方面因素所制定,是城市各空间土地利用主要功能的发展导向,具有现状与未来双重属性。

      k=3时的聚类结果图(图 6(b))和总体规划土地利用图(图 8)进行对比,将规划土地利用类型在实验结果中正确分类的样本数与其总样本数比值作为该类实验精度,其中, 特殊用地类型样本太少不参与精度计算。不同规划土地利用类型在实验结果中的精度如表 3所示,平均精度为54.6%。统计不同规划土地利用类型在上述聚类分析类别中的分布情况, 可以看出, 总体规划土地利用中不同类别在聚类分析类别中具有不同倾向性。

      图  8  武汉市总体规划土地利用图(2010-2020年)

      Figure 8.  Wuhan City Master Plan Land Use Map (2010-2020)

      表 3  聚类结果与总体规划土地利用对比表

      Table 3.  Comparison of Clustering Results and Master Plan Land Use

      用地类型 C0 C1 C2 精度
      居住用地 649 233 408 0.503
      行政办公用地 4 22 14 0.550
      商业金融用地 45 122 131 0.439
      文化娱乐用地 12 11 11 0.353
      体育用地 15 0 8 0.652
      医疗卫生用地 3 5 4 0.417
      教育科研用地 22 18 67 0.626
      市场用地 8 18 10 0.500
      工业用地 86 112 22 0.509
      仓储用地 8 2 0 0.800
      对外交通用地 5 4 2 0.455
      市政设施用地 11 0 2 0.846
      绿地 150 89 57 0.507
      特殊用地 0 1 1

      1) 居住用地、文化娱乐用地、体育用地、仓储用地、对外交通用地和市政设施用地等倾向于分为C0类,该类平均精度为58.8%。结合图 9(a),在非工作日时段,其手机通话量相对较高,并具有明显上、下午两个波峰,且上午波峰一般晚于工作日时段波峰,说明区域内部分居民较工作日出行较晚,在晚上归来休息。上述特征说明该类区域内居民行为特征更符合于居民休闲、休息等特征。

      图  9  各类别典型单元通话密度时序变化特征

      Figure 9.  Temporal Characteristics of Mobile Phone Call Density in Typical Units of Different Classes

      2) 行政办公用地、医疗卫生用地、市场用地和工业用地大多数分为C1类,该类平均精度为49.4%。结合图 9(b),该类别单元在工作日日间具有相对较高的通话量,并有明显低谷,且在傍晚明显下降。说明该区域内居民在白天聚集工作并在傍晚下班离开。休息日通话量总体较低,通话特征与其不同工作类型有关。这说明该类区域内居民行为特征更符合工作用地特征。

      3) 商业金融用地和教育科研用地则更多地分为C2类,该类平均精度为53.3%。结合图 9(c),该类别单元在工作日日间具有较高通话量,通话量变化幅度明显,日间有上、下午两个波峰(下午波峰略高),且在日间中午13时左右均有明显低谷;休息日时段通话量较之工作日时段明显升高,说明该区域在休息日较多商业活跃。

      综上所述,聚类结果中各类别实际含义及分布为: C0代表居住休闲用地,广泛分布于主城区内;C1代表工作用地,主要分布于主城区二环以内及三环线以外青山、沌口等区域。其中,主城区中心区域工作用地集中于公司、写字楼附近,居民以公司上班工作为主;青山、沌口等地为工业区,人们以工业企业上班工作为主。C2代表商业活跃用地,主要分布于主城区三环以内各商圈区域以及科研院校区域。其中商圈包含有江汉路、钟家村、王家湾、中南路、徐东、光谷广场等各大商圈商业集中区域,科研院校区域基本包涵有武汉市内各大高校及科研机构等地。

      通过与实际土地利用规划图进行对比,结合表 3精度计算结果可知,不同实际土地利用类型在谱聚类中平均精度为54.6%,与之前学者利用手机数据的相关研究的识别精度较为接近[1, 12-13]。因此,利用聚合的居民手机通话行为时序特征进行城市土地利用识别具有一定可行性,能够较为准确地识别出城市中居住、工作及商业等不同类型用地单元。然而由于手机通话的时序特征所含信息的局限性,其不能够很好地进一步精细化土地利用的综合识别。

    • 城市是一个复杂的综合系统,如何快速、准确地认知城市对于改善城市生活品质、提升城市生活质量具有重要意义。而无论城市如何复杂,它都是由在其中生活的人所创建的,其交互和服务的主体也是人。本文从人的角度出发,挖掘近似全样本覆盖的手机通话数据,不同于前人进行高维时序数据特征降维压缩的思路,本文利用适用于高维特征聚类的谱聚类算法进行城市土地利用分析,为探知城市土地利用空间分布提供一个有效的方法。

      本文使用的是手机通话数据,通过手机通话强度时序特征进行分析研究,然而只通过单一角度去认识城市显然存在不足。下一步工作可从以下两方面开展深入研究:(1)人们的行为特征还包括居民通话详细特征、居民行为轨迹特征等,因此可以以通话数据为基础,进一步挖掘反映居民其他行为特征的信息,同时可以结合其他LBS数据、社交数据等,对多源数据进行综合分析。(2)不同类型数据表现出的是城市土地利用的不同方面的属性特征,因此可以对不同类型数据在城市土地利用中所表现的属性差异进行对比研究。

参考文献 (22)

目录

    /

    返回文章
    返回