留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

众源地理空间数据的空间文本相关性分析

潘晓 张翠娟 吴雷 闫晓倩

潘晓, 张翠娟, 吴雷, 闫晓倩. 众源地理空间数据的空间文本相关性分析[J]. 武汉大学学报 ● 信息科学版, 2020, 45(12): 1910-1918. doi: 10.13203/j.whugis20200185
引用本文: 潘晓, 张翠娟, 吴雷, 闫晓倩. 众源地理空间数据的空间文本相关性分析[J]. 武汉大学学报 ● 信息科学版, 2020, 45(12): 1910-1918. doi: 10.13203/j.whugis20200185
PAN Xiao, ZHANG Cuijuan, WU Lei, YAN Xiaoqian. Spatial-Textal Correlation Analysis Based on Crowdsource Geospatial Data[J]. Geomatics and Information Science of Wuhan University, 2020, 45(12): 1910-1918. doi: 10.13203/j.whugis20200185
Citation: PAN Xiao, ZHANG Cuijuan, WU Lei, YAN Xiaoqian. Spatial-Textal Correlation Analysis Based on Crowdsource Geospatial Data[J]. Geomatics and Information Science of Wuhan University, 2020, 45(12): 1910-1918. doi: 10.13203/j.whugis20200185

众源地理空间数据的空间文本相关性分析

doi: 10.13203/j.whugis20200185
基金项目: 

河北省自然科学基金 F2018210109

河北省教育厅重点项目 ZD2018040

石家庄铁道大学第四届优秀青年科学基金 Z661250444

详细信息
    作者简介:

    潘晓,博士,副教授,主要从事数据管理、移动计算和隐私保护方面的研究。smallpx@stdu.edu.cn

  • 中图分类号: P208

Spatial-Textal Correlation Analysis Based on Crowdsource Geospatial Data

Funds: 

The Natural Science Foundation Project of Hebei Province F2018210109

Hebei Provincial Department of Education Key Project ZD2018040

The 4th Outstanding Youth Science Fund Project of Shijiazhuang Tiedao University Z661250444

More Information
    Author Bio:

    PAN Xiao, PhD, associate professor, specializes in data management, mobile computing, privacy protection. E-mail: smallpx@stdu.edu.cn

  • 摘要: 众源地理空间数据作为一种由大众采集并向大众提供的开放地理数据,蕴含着丰富的空间信息和规律性知识,其中具有代表性的是签到数据。基于地理学第一定律:所有的事物都是相互联系的,但离得越近,彼此之间的联系越强,利用移动社交网站中的签到数据,研究空间与文本的相关性,在对数据进行了预处理和地理映射处理的前提下,统计出各区域的文本属性值,在空间尺度的变化下采用探索性空间分析法分别对美国各州、纽约市和洛杉矶市做全局空间自相关性分析和局部空间自相关性分析。结果表明,不同的文本属性信息在空间上存在着不同全局空间自相关特性,局部自相关的分析也揭示了文本的聚集规律,为相关决策部门或企业制定合理决策提供了合理科学的依据。
  • 图  1  本文工作流程图

    Figure  1.  Flowchart of the Algorithm

    图  2  位置签到数据地理映射处理示意图

    Figure  2.  Diagram of Schematic Location Check-in Data Geo-mapping Processing

    图  3  签到点分布图

    Figure  3.  Check-in Distribution on the Map

    表  1  签到点的数据统计信息

    Table  1.   Statistics Information of Check-in Data

    数据类型 NYC数据集 LA数据集
    处理前 206 416 215 613
    无文本属性信息 22 546 40 593
    无二级类别文本属性信息 212 6 306
    无位置信息(经纬度信息) 225 100
    处理后 183 701 174 471
    下载: 导出CSV

    表  2  NYC和LA数据集在世界各区域分布占比/%

    Table  2.   Distribution of NYC and LA Data Sets in the World/%

    区域名称 NYC数据集 LA数据集
    北美洲 83 92
    亚洲 7 2
    非洲 0 0
    欧洲 7 3
    南美洲 2 1
    南极洲 1 0
    大洋洲 0 1
    四大洋 0 0
    下载: 导出CSV

    表  3  美国NYC数据各文本属性的全局空间自相关分析结果

    Table  3.   Results of Global Spatial Autocorrelation Analysis for the Textual Attributes of NYC Data in USA

    文本属性 全局Moran’s I Z-score
    艺术·娱乐 0.107 391 1.311 419
    大学 -0.157 350 -1.440 087
    餐饮 0.347 209 3.825 593
    户外 0.258 015 2.967 658
    工作 0.151 049 1.753 122
    夜生活 -0.003 200 0.175 573
    购物 0.173 260 2.008 816
    旅游 0.055 169 0.797 851
    下载: 导出CSV

    表  4  美国LA数据各文本属性的全局空间自相关分析结果

    Table  4.   Results of Global Spatial Autocorrelation Analysis for Textual Attributes of LA Data in USA

    文本属性 全局Moran’s I Z-score
    艺术·娱乐 -0.010 1 0.105 449
    大学 -0.110 79 -0.916 610
    餐饮 0.012 303 0.338 159
    户外 0.189 656 2.271 989
    工作 0.072 816 0.963 610
    夜生活 0.057 446 0.873 132
    购物 0.039 466 0.612 185
    旅游 0.138 608 1.813 439
    下载: 导出CSV

    表  5  美国NYC数据各文本属性的局部空间自相关分析结果

    Table  5.   Results of Local Spatial Autocorrelation Analysis for Textual Attributes of NYC Data in USA

    属性 HH LL HL LH
    艺术·娱乐 爱荷华州 纽约 西弗吉尼亚州 俄勒冈州
    大学 爱达荷州、北达科他州、内布拉斯加州 南达科他州
    餐饮 亚拉巴马州、佐治亚州、南卡罗来纳州 蒙大拿州、北达科他州、南达科他州、爱荷华州
    户外 蒙大拿州、怀俄明州、南达科他州
    工作 纽约、新罕布什尔州
    夜生活 威斯康星州 蒙大拿州、路易斯安那州 南达科他州
    购物 明尼苏达州、北达科他州
    旅游
    下载: 导出CSV

    表  6  美国LA数据各文本属性的局部空间自相关分析结果

    Table  6.   Results of Local Spatial Autocorrelation Analysis for Textual Attributes of LA Data in USA

    文本属性 HH LL HL LH
    艺术·娱乐 肯塔基州、爱荷华州
    大学 内布拉斯加州、北达科他州
    餐饮 内布拉斯加州、南达科他州、爱荷华州 蒙大拿州
    户外 怀俄明州、爱达荷州、新罕布什尔州 阿肯色州
    工作 阿肯色州 蒙大拿州、南达科他州 新墨西哥
    夜生活 明尼苏达州、威斯康星州 南达科他州
    购物 佛蒙特州、新罕布什尔州、爱荷华州 肯塔基州 阿拉巴马州、南达科他州 北达科他州
    旅游 怀俄明州、北达科他州、南达科他州
    下载: 导出CSV

    表  7  纽约城市NYC数据各文本属性的全局空间自相关分析结果

    Table  7.   Results of Global Spatial Autocorrelation Analysis for Textual Attributes of NYC Data in New York

    文本属性 全局Moran’s I Z-score
    艺术·娱乐 -0.012 838 0.070 608
    大学 0.073 675 1.079 868
    餐饮 0.247 282 2.708 060
    户外 -0.090 164 -0.781 477
    工作 0.063 630 0.849 640
    夜生活 0.332 550 3.626 187
    购物 -0.039 616 -0.212 492
    旅游 0.119 460 1.560 499
    下载: 导出CSV

    表  8  洛杉矶城市LA数据各文本属性的全局空间自相关分析结果

    Table  8.   Results of Global Spatial Autocorrelation Analysis for Textual Attributes of LA Data in Los Angeles

    文本属性 全局Moran’s I Z-score
    艺术·娱乐 0.374 884 2.585 659
    大学 -0.045 682 0.384 970
    餐饮 -0.207 535 -0.891 015
    户外 -0.268 095 -1.141 328
    工作 -0.191 084 -0.711 674
    夜生活 0.305 100 2.498 906
    购物 0.146 495 1.297 239
    旅游 -0.059 899 0.146 759
    下载: 导出CSV

    表  9  纽约城市NYC数据各文本标签的局部空间自相关分析结果

    Table  9.   Results of Local Spatial Autocorrelation Analysis for Textual Attributes of NYC Data in New York

    文本属性 HH LL HL LH
    艺术·娱乐 科尼岛
    大学 福德姆 弗雷什梅多斯餐厅
    餐饮 白石镇 布什威克、布朗斯维尔、东纽约 科尼岛
    户外 科尼岛
    工作 布什威克 杰克逊高地、科罗纳、本森赫斯特、羊头湾 长岛 布朗斯维尔/海洋山
    夜生活 市中心区、格林威治村、海龟湾、唐人街、威廉斯堡 莫特港、东特雷蒙特、帕克切斯特、佩勒姆公园大道 中央大厅
    购物 弗拉布什、羊头湾 哈莱姆中部
    旅游 牙买加、罗斯代尔
    下载: 导出CSV

    表  10  洛杉矶城市LA数据各文本属性的局部空间自相关分析结果

    Table  10.   Results of Local Spatial Autocorrelation Analysis for Textual Attributes of LA Data in Los Angeles

    文本属性 HH LL HL LH
    艺术·娱乐 第十三街区 第十二街区
    大学 第九街区
    餐饮 第十街区
    户外 第四街区
    工作
    夜生活 第十三街区 第十二街区
    购物 第十一街区
    旅游 第十一街区
    下载: 导出CSV
  • [1] Goodchild M F. Citizens as Sensors: The World of Volunteered Geography[J]. GeoJournal, 2007, 69 (4):211-221 doi:  10.1007/s10708-007-9111-y
    [2] Heipke C. Crowdsourcing Geospatial Data[J]. Journal of Photogrammetry and Remote Sensing, 2010, 65(6):550-557 doi:  10.1016/j.isprsjprs.2010.06.005
    [3] 王明, 李清泉, 胡庆武, 等.面向众源开放街道地图空间数据的质量评价方法[J].武汉大学学报·信息科学版, 2013, 38 (12) :1 490-1 494 http://ch.whu.edu.cn/article/id/2823

    Wang Ming, Li Qingquan, Hu Qingwu, et al.Quality Analysis on Crowd Sourcing Geograph Data with OpenStreetMap Data[J]. Geomatics and Information Science of Wuhan University, 2013, 38(12): 1 490-1 494 http://ch.whu.edu.cn/article/id/2823
    [4] 周晓光, 赵肄江, 李光强, 等.顾及信誉的众源时空数据模型[J].武汉大学学报·信息科学版, 2018, 43(1): 10-16 doi:  10.13203/j.whugis20150378

    Zhou Xiaoguang, Zhao Yijiang, Li Guangqiang, et al. Crowdsourcing Spatio-Temporal Data Model Considering Reputation[J]. Geomatics and Information Science of Wuhan University, 2018, 43(1): 10-16 doi:  10.13203/j.whugis20150378
    [5] 孟斌, 王劲峰, 张文忠, 等.基于空间分析方法的中国区域差异研究[J].地理科学, 2005, 25(4):393-399 doi:  10.3969/j.issn.1000-0690.2005.04.002

    Meng Bin, Wang Jinfeng, Zhang Wenzhong, et al. Evaluation of Regional Disparity in China Based on Spatial Analysis[J]. Geographic Science, 2005, 25(4):393-399 doi:  10.3969/j.issn.1000-0690.2005.04.002
    [6] 陈冉, 王海起, 孟斌, 等.基于位置签到数据的城市空间分析与可视化[J].地理信息世界, 2017, 25(3):85-91 doi:  10.3969/j.issn.1672-1586.2017.03.017

    Chen Ran, Wang Haiqi, Meng Bin, et al. Urban Spatial Analysis and Visualization Based on Location Sign-in Data[J]. Geographic Information World, 2017, 25(3):85-91 doi:  10.3969/j.issn.1672-1586.2017.03.017
    [7] Reshef D N, Reshef Y A, Finucane H K, et al. Detecting Novel Associations in Large Data Sets[J]. Science, 2011, 334 (6 062):1 518-1 524
    [8] Speed T. A Correlation for the 21st Century[J]. Science, 2011, 334(6 062):1 502-1 503
    [9] Bao Jie, Zheng Yu, Mokbel F M. Location-Based and Preference-Aware Recommendation Using Sparse GEO-social Networking Data[C]. The 20th International Conference on Advances in Geographic Information System, Redondo Beach, California, USA, 2012
    [10] 胡庆武, 王明, 李清泉.利用位置签到数据探索城市热点与商圈[J].测绘学报, 2014, 39(3):314-321

    Hu Qingwu, Wang Ming, Li Qingquan. Urban Hotspot and Commercial Area Exploration with Check-in Data[J].Journal of Surveying and Mapping, 2014, 39(3):314-321
    [11] 高文秀, 朱俊杰, 侯建光.探索性数据分析在土地利用数据分析中的应用[J].武汉大学学报·信息科学版, 2009, 34(12): 1 502-1 506 http://ch.whu.edu.cn/article/id/1474

    Gao Wenxiu, Zhu Junjie, Hou Jianguang. Landuse Data Analysis with Exploratory Data Analysis Method[J]. Geomatics and Information Science of Wuhan University, 2009, 34(12): 1 502-1 506 http://ch.whu.edu.cn/article/id/1474
    [12] 禹文豪, 艾廷华, 杨敏, 等.利用核密度与空间自相关进行城市设施兴趣点分布热点探测[J].武汉大学学报·信息科学版, 2016, 41(2): 221-227 doi:  10.13203/j.whugis20140092

    Yu Wenhao, Ai Tinghua, Yang Min, et al.Detecting "Hot Spots" of Facility POIs Based on Kernel Density Estimation and Spatial Autocorrelation Technique[J]. Geomatics and Information Science of Wuhan University, 2016, 41(2): 221-227 doi:  10.13203/j.whugis20140092
    [13] Diggle P J.空间统计学[M].北京:机械工业出版社, 2017
    [14] 刘湘南, 黄方, 王平.GIS空间分析原理与方法[M].北京:科学出版社, 2008:189-190

    Liu Xiangnan, Huang Fang, Wang Ping. Principles and Methods of GIS Spatial Analysis[M]. Beijing : Science Press, 2008:189-190
    [15] 胡青峰, 张子平, 何荣, 等.基于Geoda095i区域经济增长率的空间统计分析研究[J].测绘与空间地理信息, 2007, 30(2):53-37 doi:  10.3969/j.issn.1672-5867.2007.02.016

    Hu Qingfeng, Zhang Ziping, He Rong, et al.Spatial Statistical Analysis Based on Geoda095i Regional Economic Growth Rate[J]. Mapping and Spatial Geographic Information, 2007, 30(2):53-37 doi:  10.3969/j.issn.1672-5867.2007.02.016
    [16] 王雪瑞, 葛斌华.我国生产性服务业空间效应研究-基于SLM、SEM模型的实证[J].中央财经大学学报, 2012(4):68-71, 96

    Wang Xuerui, Ge Binhua. Research on the Spatial Effect of China's Producer Service Industry-Based on the Empirical Study of SLM and SEM Models[J].Journal of Central University of Finance and Economics, 2012(4):68-71, 96
    [17] 禹文豪, 艾廷华, 杨敏, 等.利用核密度与空间自相关进行城市设施兴趣点分布热点探测[J].武汉大学学报·信息科学版, 2016, 41(2): 221-227 doi:  10.13203/j.whugis20140092

    Yu Wenhao, Ai Tinghua, Yang Min, et al. Detecting "Hot Spots" of Facility POIs Based on Kernel Density Estimation and Spatial Autocorrelation Technique[J]. Geomatics and Information Science of Wuhan University, 2016, 41(2): 221-227 doi:  10.13203/j.whugis20140092
  • [1] 马俊, 姜卫平, 邓连生, 周伯烨.  GPS坐标时间序列噪声估计及相关性分析 . 武汉大学学报 ● 信息科学版, 2018, 43(10): 1451-1457. doi: 10.13203/j.whugis20160543
    [2] 陈占龙, 张丁文, 谢忠, 吴亮.  利用多等级相关性反馈进行空间场景匹配 . 武汉大学学报 ● 信息科学版, 2018, 43(9): 1422-1428. doi: 10.13203/j.whugis20160360
    [3] 陈俊平, 周建华, 严宇, 陈倩, 王彬.  GNSS数据处理时空参数的相关性 . 武汉大学学报 ● 信息科学版, 2017, 42(11): 1649-1657. doi: 10.13203/j.whugis20170278
    [4] 单杰, 秦昆, 黄长青, 胡翔云, 余洋, 胡庆武, 林志勇, 陈江平, 贾涛.  众源地理数据处理与分析方法探讨 . 武汉大学学报 ● 信息科学版, 2014, 39(4): 390-396. doi: 10.13203/j.whugis20130633
    [5] 王明, 李清泉, 胡庆武, 周檬.  面向众源开放街道地图空间数据的质量评价方法 . 武汉大学学报 ● 信息科学版, 2013, 38(12): 1490-1494.
    [6] 冯昕, 杜世宏, 舒红.  空间权重矩阵对空间自相关的影响分析——以我国肾综合征出血热疾病为例 . 武汉大学学报 ● 信息科学版, 2011, 36(12): 1410-1413.
    [7] 常军, 胡瑞敏, 王中元, 艾浩军.  基于隐含语义相关性分析的视频语义检索 . 武汉大学学报 ● 信息科学版, 2011, 36(10): 1256-1259.
    [8] 陈江平, 张兰兰, 余远剑, 张鹏林.  利用空间自相关的中国内陆甲型H1N1流感疫情分析 . 武汉大学学报 ● 信息科学版, 2011, 36(11): 1363-1366.
    [9] 王汉东, 乐阳, 李宇光, 黄玲.  城市商业服务设施吸引力的空间相关性分析 . 武汉大学学报 ● 信息科学版, 2011, 36(9): 1102-1106.
    [10] 章汉武, 吴华意, 胡月明, 桂志鹏.  从地理空间数据质量到地理空间信息服务质量 . 武汉大学学报 ● 信息科学版, 2010, 35(9): 1104-1107.
    [11] 焦利民, 刘耀林, 刘艳芳.  区域城镇基准地价水平的空间自相关格局分析 . 武汉大学学报 ● 信息科学版, 2009, 34(7): 873-877.
    [12] 高文秀, 朱俊杰, 侯建光.  探索性数据分析在土地利用数据分析中的应用 . 武汉大学学报 ● 信息科学版, 2009, 34(12): 1502-1506.
    [13] 王耀革, 王志伟, 朱长青.  DEM误差的空间自相关特征分析 . 武汉大学学报 ● 信息科学版, 2008, 33(12): 1259-1262.
    [14] 刘国林, 郝晓光, 薛怀平, 独知行.  影响InSAR测高精度因素的相关性分析 . 武汉大学学报 ● 信息科学版, 2007, 32(1): 55-58.
    [15] 张宏伟, 张祖勋, 张剑清.  直线摄影测量观测值的冗余度和相关性分析 . 武汉大学学报 ● 信息科学版, 2005, 30(9): 775-777.
    [16] 周文生, 毛锋, 胡鹏.  Web环境下地理空间数据的开放式表达体系研究 . 武汉大学学报 ● 信息科学版, 2004, 29(1): 43-47.
    [17] 邹逸江, 李德仁, 王任享.  空间数据立方体分析操作原理 . 武汉大学学报 ● 信息科学版, 2004, 29(9): 822-826.
    [18] 余晓红, 刘大杰.  地图数字化数据坐标变换的相关性分析 . 武汉大学学报 ● 信息科学版, 2002, 27(5): 456-461.
    [19] 郭仁忠, 张克权.  Q型聚类分析中变量相关性的处理方法分析 . 武汉大学学报 ● 信息科学版, 1987, 12(3): 64-78.
    [20] 罗芳, 艾廷华, 贾小斌.  空间自相关支撑下的地类分布模式一致性评价 . 武汉大学学报 ● 信息科学版, 0, 0(0): 0-0. doi: 10.13203/j.whugis20200179
  • 加载中
图(3) / 表(10)
计量
  • 文章访问数:  359
  • HTML全文浏览量:  141
  • PDF下载量:  80
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-04-26
  • 刊出日期:  2020-12-05

众源地理空间数据的空间文本相关性分析

doi: 10.13203/j.whugis20200185
    基金项目:

    河北省自然科学基金 F2018210109

    河北省教育厅重点项目 ZD2018040

    石家庄铁道大学第四届优秀青年科学基金 Z661250444

    作者简介:

    潘晓,博士,副教授,主要从事数据管理、移动计算和隐私保护方面的研究。smallpx@stdu.edu.cn

  • 中图分类号: P208

摘要: 众源地理空间数据作为一种由大众采集并向大众提供的开放地理数据,蕴含着丰富的空间信息和规律性知识,其中具有代表性的是签到数据。基于地理学第一定律:所有的事物都是相互联系的,但离得越近,彼此之间的联系越强,利用移动社交网站中的签到数据,研究空间与文本的相关性,在对数据进行了预处理和地理映射处理的前提下,统计出各区域的文本属性值,在空间尺度的变化下采用探索性空间分析法分别对美国各州、纽约市和洛杉矶市做全局空间自相关性分析和局部空间自相关性分析。结果表明,不同的文本属性信息在空间上存在着不同全局空间自相关特性,局部自相关的分析也揭示了文本的聚集规律,为相关决策部门或企业制定合理决策提供了合理科学的依据。

English Abstract

潘晓, 张翠娟, 吴雷, 闫晓倩. 众源地理空间数据的空间文本相关性分析[J]. 武汉大学学报 ● 信息科学版, 2020, 45(12): 1910-1918. doi: 10.13203/j.whugis20200185
引用本文: 潘晓, 张翠娟, 吴雷, 闫晓倩. 众源地理空间数据的空间文本相关性分析[J]. 武汉大学学报 ● 信息科学版, 2020, 45(12): 1910-1918. doi: 10.13203/j.whugis20200185
PAN Xiao, ZHANG Cuijuan, WU Lei, YAN Xiaoqian. Spatial-Textal Correlation Analysis Based on Crowdsource Geospatial Data[J]. Geomatics and Information Science of Wuhan University, 2020, 45(12): 1910-1918. doi: 10.13203/j.whugis20200185
Citation: PAN Xiao, ZHANG Cuijuan, WU Lei, YAN Xiaoqian. Spatial-Textal Correlation Analysis Based on Crowdsource Geospatial Data[J]. Geomatics and Information Science of Wuhan University, 2020, 45(12): 1910-1918. doi: 10.13203/j.whugis20200185
  • 众源地理空间数据指由众多非专业人员自愿贡献并通过互联网向公众或组织提供的一种开放地理空间数据[1-4]。具有代表性的众源地理空间数据包括全球定位系统路线数据(如OpenStreetMap)、用户协作标注编辑的地图数据(如Wikimapia)和基于位置的移动社交网络数据(如Foursquare)等。其中,基于位置的社交网络中的数据因具有丰富的位置、时间和语义信息,已成为典型研究对象之一。目前国内外流行的基于位置移动社交应用软件能够记录用户活动或者事件发生的地理位置,这些位置可能是餐馆、商场、学校等各种各样的兴趣点(point of interest,POI),通过用户分享推送给他的朋友或其他用户。

    现有的针对空间文本对象的大部分研究工作,如空间关键字查询,在评价两个空间文本对象的相似性时,均认为空间相似性和文本相似性是相互独立的。然而,地理学第一定律指出,所有的事物都是相互联系的,离得越近,彼此之间的联系越强。换言之,对象点上文本的出现受对象空间位置的影响,任意两个空间文本对象的空间相似性和文本相似性不是独立的,空间上邻近的位置点其文本应该更相似。然而,当前国内外对空间文本对象的相关性研究相对较少。现有的研究或认为空间和文本两个变量是相互独立的,或未从空间视角研究空间效应对文本标签分布的影响。在研究不同空间尺度下空间效应对文本标签分布的影响时,还需考虑空间自相关性和空间异质性[5]

    在相关性领域研究中,目前已有许多相关性度量的指标,如Spearman秩相关系数、互信息估计[6]、距离相关[7]以及最大信息数(maximal information coefficient,MIC)[8]等。本文涉及空间效应的影响,因此采用空间统计知识对相关性进行检验。

    本文利用移动社交网站中的签到数据,研究空间与文本的相关性,在对数据进行了预处理和地理映射处理的前提下,统计出各区域的文本属性值,在空间尺度的变化下采用探索性空间分析法分别对美国各州、纽约市和洛杉矶市做全局空间自相关性分析和局部空间自相关性分析。

    • 本文针对众源地理空间数据的空间特征和文本标签信息,利用探索性空间分析法研究空间文本的相关性。在对真实数据进行预处理之后,首先对数据进行了描述性统计分析与初步可视化;然后利用全局Moran’s I系数对文本属性值在整个区域的空间特征进行了描述;接着采用局部Moran’s I系数推算文本信息聚集地的范围;最后利用空间统计学计算相关指标制作图表,直观显示各项计算指标,反映文本标签的分布情况,图 1是本文的工作流程图。从纽约和洛杉矶两个数据集的分析结果发现,确实存在一些文本关键字(如“餐饮”“户外”)与空间呈现空间自相关性;通过空间尺度的变化,发现了被掩盖的呈现局部空间自相关性的文本类型(如“工作”“购物”)。

      图  1  本文工作流程图

      Figure 1.  Flowchart of the Algorithm

    • 本文采用的数据来源于从典型移动社交网络Foursquare上抓取的公开真实签到数据集[9]。签到数据中记录了纽约用户与洛杉矶用户的签到信息,分别称为NYC数据集和LA数据集。其中,签到点信息包含地点标识ID、名称、经度、纬度、地址、城市、州以及0~18个文本属性等信息。其中文本属性信息共包括3个级别,第一级别包含8个大类,分别为艺术·娱乐、大学、餐饮、户外、工作、夜生活、购物、旅游;每一个一级类别分别包含[0, 16]不等的二级类别;每一个二级类别分别包含[0, 12]不等的三级类别。比如,一级类别“餐饮”包含“非洲餐厅” “亚洲餐厅” “澳大利亚餐厅” “西班牙餐厅”等;其中二级类别“西班牙餐厅”又包含“肉菜饭餐厅”。

    • 通过分析发现,签到数据集中的感兴趣点集合存在以下脏数据:

      1)由于网络原因造成签到点的信息不完整,NYC数据集中10.923%的签到点(即22 546个POI)没有文本属性信息,0.103%的签到点(即212个)没有一级类别文本属性信息,0.109%(即225个)的签到点没有位置信息(经纬度信息)。LA数据集中18.827%的签到点(即40 593个)没有文本属性信息,2.925%的签到点(即6 306个)没有一级类别文本属性信息,0.046%的签到点(即100个)没有位置信息(即经纬度)。签到点的数据统计信息如表 1所示。

      表 1  签到点的数据统计信息

      Table 1.  Statistics Information of Check-in Data

      数据类型 NYC数据集 LA数据集
      处理前 206 416 215 613
      无文本属性信息 22 546 40 593
      无二级类别文本属性信息 212 6 306
      无位置信息(经纬度信息) 225 100
      处理后 183 701 174 471

      2)签到点存在文本属性重复的情况。签到点同一级别的文本会重复出现,不同级别文本又可能归属相同的级别。比如,一个签到点的文本属性信息为“西班牙餐厅” “肉菜饭餐厅” “体育用品商店”,其中“西班牙餐厅”和“肉菜饭餐厅”均从属于“餐饮”类别,而且“肉菜饭餐厅”又为“西班牙餐厅”的子类别,“体育用品商店”从属于“购物”类别。

      3)签到的位置为大量离散点,在空间上不具有空间连续性和邻接性,不利于探索性空间数据分析方法度量其空间分布模式[10]。另外,每个签到点具有0~18个不同级别的文本属性,不适宜直接作为具有空间连续性的区域单元的文本属性值。

      综合以上问题,本文主要进行了3方面的数据预处理:

      1)删除信息不完整的点集,包括删除没有位置信息的签到点、没有文本属性信息的签到点、没有一级类别文本属性信息的签到点。处理后NYC和LA数据集保留的签到点数量如表 1最后一行所示。

      2)将所有签到点的文本属性都归为一级类别并去重,即将每个点的0~18个文本属性都分别归入了8个一级类别。若不同的文本属性归入同一一级类别,则进行去重处理。

      3)地理映射处理。为了让签到数据既能反映空间连续性与邻接性,又能够保存签到点对象的文本属性特征,本文选择以签到数据所覆盖区域为研究范围,将所有签到点映射到相应区域单元中,区域单元的文本属性值通过式(1)获得:

      $$ {Q_i} = {w_i}/p $$ (1)

      式中,i={1,2,3,4,5,6,7,8}分别代表{艺术·娱乐,大学,餐饮,户外,工作,夜生活,购物,旅游}8个文本属性;Qi为区域单元的文本属性值;wi为区域中包含的签到点的第i个文本属性的频数;p代表签到点个数。

      图 2通过一个具体例子说明地理映射处理过程。图 2(a)展示了同在一个区域单元4个签到POI的分布,图 2(b)显示了所有POI的一级文本信息,图 2(c)显示的是区域G1根据式(1)计算的8个文本属性值。

      图  2  位置签到数据地理映射处理示意图

      Figure 2.  Diagram of Schematic Location Check-in Data Geo-mapping Processing

    • 探索性空间数据分析法可以解释与空间位置相关的空间自相关现象[11]。空间自相关反映的是一个区域单元上某一属性值与邻近区域单元上同一现象属性值的相关程度[12]。空间自相关分析是研究空间中某位置的观察值与其相邻位置的观察值是否相关以及相关程度的一种空间数据分析方法。

      自相关有3种:正自相关、负自相关和无相关(零自相关)。正自相关是最常见的,指的是附近的观察值很可能彼此相似;负自相关较少见,指的是附近的观察值很可能彼此不同;零自相关指的是无法辨别空间效应,观察值在空间上似乎是随机变化的。空间自相关按功能大致分为两类:全局空间自相关和局部空间自相关[13]

    • 全局空间自相关的功能在于描述某变量属性值的整体分布情况,判断此现象是否有聚集特性存在。全局空间自相关的分析方法有很多,主要有全局Moran’s I、全局Geary’s C和全局Getis-Ord G,这些指标都是通过比较邻近空间位置观察值的相似程度来测量全局空间自相关性。Moran’s I更不易受偏离正态分布的影响,可以发现观测值在空间分布的差异性和相关性[11],因此,本文采用全局Moran’s I系数作为评价全局空间自相关性分析的指标。

      全局Moran’s I系数从总体上反映整个研究区域有无聚集性,针对特定文本i,其全局Moran’s I系数的计算方法为:

      $$ I = \frac{{n\sum\limits_{k = 1}^n {\sum\limits_{j = 1}^n {{w_{kj}}} } \left( {{x_k} - x} \right)\left( {{x_j} - x} \right)}}{{\left( {\sum\limits_{k = 1}^n {\sum\limits_{j = 1}^n {{w_{kj}}} } } \right)\sum\limits_{k = 1}^n {{{\left( {{x_k} - x} \right)}^2}} }} $$ (2)

      式中,n为所研究的空间区域单元数,本文采用美国的行政区域作为区域单元;xkk区域内的文本i的属性值;wkj为空间权重矩阵,本文选择邻接权重矩阵作为空间权重矩阵。

      全局Moran’s I统计方法利用假设检验先设研究对象没有全局空间相关性,然后通过Z-score得分来验证假设是否成立。Z-score得分统计量由Moran’s I系数及其期望值和方差三部分组成,具体为:

      $$ Z = \frac{{I - E\left( I \right)}}{{\sqrt {{\rm{Var}}\left( I \right)} }} $$ (3)

      式中,$E\left( I \right) = \frac{{ - 1}}{{n - 1}}$;${\rm{Var}}\left( I \right) = E\left( {{I^2}} \right) - E{\left( I \right)^2}$。当|Z| > 1.96时,P < 0.05,拒绝原假设,即认为总体Moran’s I≠0,存在空间自相关。

      Moran’s I取值范围为[-1, 1]。取值为正时,数据呈正相关,取值越接近1,表示正向空间自相关性越强,呈聚集分布;取值为负时,表示数据呈负相关,取值越接近-1,则负向空间自相关性越强,呈均匀分布;取值越接近于0,则呈随机分布,不具有自相关性。

    • 全局空间自相关的缺点是不能确切指出聚集在哪些区域单元。局部空间自相关能够推算聚集地的范围[14],其核心是认识与地理位置相关的数据间的空间关联,通过空间位置建立数据间的统计关系[15],可用的分析方法有Anselin局部Moran’s I、局部Geary’s C、局部Getis、Moran散点图以及空间自相关系数图等[16]

      本文采用常用的Anselin局部Moran’s I方法,则第k个区域单元的局部Moran’s I值为:

      $$ {I_k} = \frac{{\left( {{x_k} - x} \right)}}{S}\mathop \sum \limits_{j, , j \ne k}^n {w_{kj}}\left( {{x_k} - \bar x} \right) $$ (4)

      式中,x为所研究区域的平均文本属性值;${S^2} = \frac{1}{n}\mathop \sum \limits_{k = 1}^n {({x_k} - \bar x)^2};\bar x = \frac{1}{n}\mathop \sum \limits_{k = 1}^n {x_k}$;且$i \ne j$。

      在假定空间对象的属性值属于空间随机分布的零假设下,通过Z-score来验证假设是否成立,Z-score统计量计算如下:

      $$ Z = \frac{{{I_k} - E\left( {{I_k}} \right)}}{{\sqrt {{\rm{Var}}\left( {{I_k}} \right)} }} $$ (5)

      式中,$E\left( {{I_k}} \right) = \frac{{ - \mathop \sum \limits_{j, j \ne k}^k {w_{kj}}}}{{n - 1}}$;${\rm{Var}}\left( {{I_k}} \right)$=$E\left( {I_k^2} \right){\rm{}}$—$\left[ {E\left( {{I_k}} \right)} \right]{{\rm{}}^2}$。若Z > 1.96,表示邻近区域的文本属性具有相似值(高值或低值)。将具有统计显著性(0.05的显著水平)的高值聚类表示为HH,即高属性值的区域被高属性值的其他区域所包围;低值聚类表示为LL,即低属性值的区域被低属性值的其他区域所包围。若Z < -1.96,表示具有统计显著性(0.05的显著水平)的空间异常值,即低属性值的区域被高属性值的其他区域所包围(LH),或高属性值的区域被低属性值的其他区域所包围(HL)。其他情况,则表示不具有统计显著性。

    • 首先采用Excel对数据集进行描述性统计分析,本文统计了NYC和LA签到点数据在全球七大洲和四大洋的分布比例,见表 2。其次,采用ArcGIS 10.4分别对两个签到点空间分布进行可视化,结果如图 3所示。

      表 2  NYC和LA数据集在世界各区域分布占比/%

      Table 2.  Distribution of NYC and LA Data Sets in the World/%

      区域名称 NYC数据集 LA数据集
      北美洲 83 92
      亚洲 7 2
      非洲 0 0
      欧洲 7 3
      南美洲 2 1
      南极洲 1 0
      大洋洲 0 1
      四大洋 0 0

      图  3  签到点分布图

      Figure 3.  Check-in Distribution on the Map

    • 在ArcGIS10.4上进行全局空间自相关性分析。NYC数据集和LA数据集的全局空间自相关分析结果分别见表 3表 4

      表 3  美国NYC数据各文本属性的全局空间自相关分析结果

      Table 3.  Results of Global Spatial Autocorrelation Analysis for the Textual Attributes of NYC Data in USA

      文本属性 全局Moran’s I Z-score
      艺术·娱乐 0.107 391 1.311 419
      大学 -0.157 350 -1.440 087
      餐饮 0.347 209 3.825 593
      户外 0.258 015 2.967 658
      工作 0.151 049 1.753 122
      夜生活 -0.003 200 0.175 573
      购物 0.173 260 2.008 816
      旅游 0.055 169 0.797 851

      表 4  美国LA数据各文本属性的全局空间自相关分析结果

      Table 4.  Results of Global Spatial Autocorrelation Analysis for Textual Attributes of LA Data in USA

      文本属性 全局Moran’s I Z-score
      艺术·娱乐 -0.010 1 0.105 449
      大学 -0.110 79 -0.916 610
      餐饮 0.012 303 0.338 159
      户外 0.189 656 2.271 989
      工作 0.072 816 0.963 610
      夜生活 0.057 446 0.873 132
      购物 0.039 466 0.612 185
      旅游 0.138 608 1.813 439

      表 3可知,“餐饮”“户外”和“购物”的Z-score值大于1.96,且全局Moran’s I值大于0,存在正向全局空间自相关性,表明这3类文本属性在区域单元(美国各州)附近的观察值很可能是彼此相似的。另外,“工作”的Z-score虽然小于1.96,但随机产生此聚类模式的可能性小于10%,且全局Moran’s I值大于0,有正向全局空间自相关性趋势。

      同理,由表 4可知,只有“户外”的Z-score值大于1.96,且全局Moran’s I值大于0,存在正向全局空间自相关性;另外,“旅游”的Z-score虽然小于1.96,但随机产生此聚类模式的可能性小于10%,且全局Moran’s I值大于0,有正向全局空间自相关性趋势。

    • 利用ArcGIS10.4对NYC数据集和LA数据集在美国行政区域上进行局部空间自相关性分析,结果见表 5表 6。回顾§2.2局部空间自相关性分析描述,高值聚类表示高属性值的区域被高属性值的其他区域包围,由于局部空间自相关性结果的高值聚类对于本文研究内容有意义,所以只针对高值聚类结果进行分析。

      表 5  美国NYC数据各文本属性的局部空间自相关分析结果

      Table 5.  Results of Local Spatial Autocorrelation Analysis for Textual Attributes of NYC Data in USA

      属性 HH LL HL LH
      艺术·娱乐 爱荷华州 纽约 西弗吉尼亚州 俄勒冈州
      大学 爱达荷州、北达科他州、内布拉斯加州 南达科他州
      餐饮 亚拉巴马州、佐治亚州、南卡罗来纳州 蒙大拿州、北达科他州、南达科他州、爱荷华州
      户外 蒙大拿州、怀俄明州、南达科他州
      工作 纽约、新罕布什尔州
      夜生活 威斯康星州 蒙大拿州、路易斯安那州 南达科他州
      购物 明尼苏达州、北达科他州
      旅游

      表 6  美国LA数据各文本属性的局部空间自相关分析结果

      Table 6.  Results of Local Spatial Autocorrelation Analysis for Textual Attributes of LA Data in USA

      文本属性 HH LL HL LH
      艺术·娱乐 肯塔基州、爱荷华州
      大学 内布拉斯加州、北达科他州
      餐饮 内布拉斯加州、南达科他州、爱荷华州 蒙大拿州
      户外 怀俄明州、爱达荷州、新罕布什尔州 阿肯色州
      工作 阿肯色州 蒙大拿州、南达科他州 新墨西哥
      夜生活 明尼苏达州、威斯康星州 南达科他州
      购物 佛蒙特州、新罕布什尔州、爱荷华州 肯塔基州 阿拉巴马州、南达科他州 北达科他州
      旅游 怀俄明州、北达科他州、南达科他州

      表 3中纽约用户的文本属性“艺术·娱乐”“夜生活”和“工作”的全局空间自相关性是不存在意义的。通过表 5呈现的局部空间自相关分析,可知“艺术·娱乐”在爱荷华州呈高值聚类;“夜生活”在威斯康星州呈高值聚类;“工作”在纽约、新罕布什尔州呈高值聚类,这是被掩盖的3个局部自相关性。存在全局空间自相关的“餐饮”“户外”和“购物”,其中“餐饮”在亚拉巴马州、佐治亚州、南卡罗来纳州呈高值聚类;“户外”在蒙大拿州、怀俄明州、南达科他州呈高值聚类,“购物”在明尼苏达州、北达科他州呈高值聚类。

      同理,在表 4中洛杉矶用户的文本属性“艺术·娱乐”“工作”“夜生活”“购物”和“旅游”的全局空间自相关性是不存在意义的,然而通过表 6呈现的局部空间自相关分析可知,“艺术·娱乐”在肯塔基州、爱荷华州呈高值聚类;“工作”在阿肯色州呈高值聚类;“夜生活”在明尼苏达州、威斯康星州呈高值聚类;“购物”在佛蒙特州、新罕布什尔州、爱荷华州呈高值聚类;“旅游”在怀俄明州、北达科他州、南达科他州呈高值聚类,这是被掩盖的5个局部自相关性。存在全局空间自相关的“户外”在蒙大拿州、怀俄明州、南达科他州呈高值聚类。

      由此推测,对于“艺术·娱乐”“户外”“夜生活”文本属性,都可发现纽约用户和洛杉矶用户的签到点聚集地的交叉重合。纽约用户和洛杉矶用户的签到点数据的“艺术·娱乐”类主要集中在美国中西部的中北地区;“购物”类主要集中在美国中西部的中北地区;“夜生活”主要集中在美国中西部,“户外”类主要集中在西部山区和中西部。

      “工作”“旅游”“购物”“餐饮”类中,纽约用户和洛杉矶用户签到点聚集地呈现明显的不同。“工作”类的纽约用户主要集中在美国东北地区,洛杉矶用户主要集中在美国南方的中南地区西部;“餐饮类”的纽约用户主要集中在南方,但洛杉矶用户签到点未呈现明显聚集现象;“旅游”类的纽约用户签到点未呈现明显聚集现象,洛杉矶用户主要集中在西部和中西部。

    • 为了更精确地探索空间文本的相关性,本文对空间范围进行缩小,从美国的各个州缩小到了城市(纽约和洛杉矶)。在NYC数据集(LA数据集)上专门分析了纽约市(洛杉矶市)的全局空间自相关分析和局部空间自相关分析。

      表 7显示的是纽约市在NYC数据集上各文本属性的全局空间自相关分析结果。从表 7可以发现,“餐饮”和“夜生活”的Z-score值大于1.96,且全局Moran’s I值大于0,存在正向全局空间自相关性趋势。表 8显示的是洛杉矶市在LA数据集上各文本属性的全局空间自相关分析结果,可以看出,“艺术·娱乐”和“夜生活”存在正向全局空间自相关性。

      表 7  纽约城市NYC数据各文本属性的全局空间自相关分析结果

      Table 7.  Results of Global Spatial Autocorrelation Analysis for Textual Attributes of NYC Data in New York

      文本属性 全局Moran’s I Z-score
      艺术·娱乐 -0.012 838 0.070 608
      大学 0.073 675 1.079 868
      餐饮 0.247 282 2.708 060
      户外 -0.090 164 -0.781 477
      工作 0.063 630 0.849 640
      夜生活 0.332 550 3.626 187
      购物 -0.039 616 -0.212 492
      旅游 0.119 460 1.560 499

      表 8  洛杉矶城市LA数据各文本属性的全局空间自相关分析结果

      Table 8.  Results of Global Spatial Autocorrelation Analysis for Textual Attributes of LA Data in Los Angeles

      文本属性 全局Moran’s I Z-score
      艺术·娱乐 0.374 884 2.585 659
      大学 -0.045 682 0.384 970
      餐饮 -0.207 535 -0.891 015
      户外 -0.268 095 -1.141 328
      工作 -0.191 084 -0.711 674
      夜生活 0.305 100 2.498 906
      购物 0.146 495 1.297 239
      旅游 -0.059 899 0.146 759

      从纽约城市角度看,表 7中纽约用户的文本属性“大学”“工作”“购物”和“旅游”的全局空间自相关性是不存在意义的,然而通过表 9呈现的局部空间自相关分析可知,“大学”在福德姆呈高值聚类;“工作”在布什威克呈高值聚类;“购物”在弗拉布什呈高值聚类;“旅游”在牙买加、罗斯代尔呈高值聚类。存在全局空间自相关的“餐饮”和“夜生活”,“餐饮”在白石镇呈高值聚类;“夜生活”在市中心区、格林威治村、唐人街、威廉斯堡呈高值聚类。

      表 9  纽约城市NYC数据各文本标签的局部空间自相关分析结果

      Table 9.  Results of Local Spatial Autocorrelation Analysis for Textual Attributes of NYC Data in New York

      文本属性 HH LL HL LH
      艺术·娱乐 科尼岛
      大学 福德姆 弗雷什梅多斯餐厅
      餐饮 白石镇 布什威克、布朗斯维尔、东纽约 科尼岛
      户外 科尼岛
      工作 布什威克 杰克逊高地、科罗纳、本森赫斯特、羊头湾 长岛 布朗斯维尔/海洋山
      夜生活 市中心区、格林威治村、海龟湾、唐人街、威廉斯堡 莫特港、东特雷蒙特、帕克切斯特、佩勒姆公园大道 中央大厅
      购物 弗拉布什、羊头湾 哈莱姆中部
      旅游 牙买加、罗斯代尔

      空间尺度缩小后,可发现纽约城市的大学主要聚集在福德姆及周围附近区域;纽约用户的工作区域主要集中在布什威克及周围区域。纽约用户日常餐饮主要集中在白石镇区域及周围区域。纽约的夜生活不论从全局还是局部来看都呈现聚集现象,区域范围较广,包括市中心林区、唐人街、威廉斯堡。

      类似地,表 10列出了洛杉矶市在LA数据集上各文本属性的局部空间自相关分析结果。可以看出,存在空间自相关的“艺术·娱乐”和“夜生活”在第十三街区呈高值聚类。

      表 10  洛杉矶城市LA数据各文本属性的局部空间自相关分析结果

      Table 10.  Results of Local Spatial Autocorrelation Analysis for Textual Attributes of LA Data in Los Angeles

      文本属性 HH LL HL LH
      艺术·娱乐 第十三街区 第十二街区
      大学 第九街区
      餐饮 第十街区
      户外 第四街区
      工作
      夜生活 第十三街区 第十二街区
      购物 第十一街区
      旅游 第十一街区

      空间尺度缩小后,结合全局和局部空间自相关性研究结果,空间变化前后在纽约城市“餐饮”和“夜生活”存在正向全局空间自相关趋势,即在一定程度上呈现空间距离近,相似性越大。对于洛杉矶用户来说,“餐饮”以及“大学”类始终未呈现聚集现象。

      通过局部自相关分析可以发现,被掩盖的局部自相关性“大学” “工作”“购物”和“旅游”在各自的聚集范围内同样满足距离越近,文本越相似。在美国各州区域空间尺度下,纽约市“旅游”属性未呈现聚集现象,但是在空间尺度缩小后呈现了高值聚类;在洛杉矶市“艺术·娱乐”和“夜生活”存在正向全局空间自相关趋势,并且通过局部自相关性分析发现在各自的聚集范围内同样满足距离越近,文本越相似。

      另外发现有些聚集减弱的现象,比如“户外”属性空间尺度变化前,纽约用户和洛杉矶用户的“户外”属性都呈现聚集现象,在空间尺度缩小后却没有了聚集现象。

    • 本文采用探索性空间分析法的全局空间自相关性和局部空间自相关性分析,利用两个真实的签到数据集,分别就美国各州、纽约和洛杉矶作为研究区域对文本分布的情况做了空间自相关性分析。通过分析,发现空间与文本存在空间自相关性。空间计量模型主要解决回归模型中复杂的空间相互作用(空间自相关)与空间结构(不均匀性)问题[16-17]。未来可以考虑建立合理的空间计量经济模型进行因素间的分析,其中需要考虑到空间效应对文本的影响。

      从前文研究发现,空间相似性与文本相似性不能假设空间文本独立。未来在研究空间相似性与文本相似性的结合方式时,需要消除空间对文本的影响。比如,设空间与文本的空间自相关指数是β,如果将空间相似性与文本相似性建立线性组合,可以考虑为文本相似性乘以(1-β)的消减系数,从而达到消除空间对文本相似性的影响。

      空间与文本呈现的相关性反映了大众日常生活行为与地区商业经济分布的高度相关性,为监测城市商业圈分布及其发展趋势提供了一种新的方法,也为相关部门的城市规划和行政决策提供了比较直观的参考。

      未来将在美国人口普查局常用的“四块九区”进行空间相关性研究,针对某一个城市展现文本的分布情况进行研究,这将有利于为城市相关部门的经济发展、城市规划与行政决策提供新方法。

参考文献 (17)

目录

    /

    返回文章
    返回