留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

公共地图服务中访问热点区域的时空规律挖掘

李锐 沈雨奇 蒋捷 刘朝辉 吴华意

李锐, 沈雨奇, 蒋捷, 刘朝辉, 吴华意. 公共地图服务中访问热点区域的时空规律挖掘[J]. 武汉大学学报 ● 信息科学版, 2018, 43(9): 1408-1415. doi: 10.13203/j.whugis20160424
引用本文: 李锐, 沈雨奇, 蒋捷, 刘朝辉, 吴华意. 公共地图服务中访问热点区域的时空规律挖掘[J]. 武汉大学学报 ● 信息科学版, 2018, 43(9): 1408-1415. doi: 10.13203/j.whugis20160424
LI Rui, SHEN Yuqi, JIANG Jie, LIU Zhaohui, WU Huayi. Temporal and Spatial Characteristics of Hotspots in Public Map Service[J]. Geomatics and Information Science of Wuhan University, 2018, 43(9): 1408-1415. doi: 10.13203/j.whugis20160424
Citation: LI Rui, SHEN Yuqi, JIANG Jie, LIU Zhaohui, WU Huayi. Temporal and Spatial Characteristics of Hotspots in Public Map Service[J]. Geomatics and Information Science of Wuhan University, 2018, 43(9): 1408-1415. doi: 10.13203/j.whugis20160424

公共地图服务中访问热点区域的时空规律挖掘

doi: 10.13203/j.whugis20160424
基金项目: 

国家重点研发计划 2016YFB0502301

国家自然科学基金 41771426

详细信息
    作者简介:

    李锐, 教授, 博士, 主要研究方向为网络GIS理论与应用、时空计算与数据挖掘、网络空间行为分析及并行与分布式实时系统。ruili@whu.edu.cn

    通讯作者: 吴华意, 教授, 博士。wuhuayi@whu.edu.cn
  • 中图分类号: P208

Temporal and Spatial Characteristics of Hotspots in Public Map Service

Funds: 

The National Key R & D Program of China 2016YFB0502301

the National Natural Science Foundation of China 41771426

More Information
    Author Bio:

    LI Rui, professor, PhD, specializes in WebGIS, space-time computing and data mining, Web spatial behavior analysis and parallel distributed real-time systems. E-mail:ruili@whu.edu.cn

    Corresponding author: WU Huayi, professor, PhD. E-mail:wuhuayi@whu.edu.cn
  • 摘要: 公共地图服务的普及是人们步入数字生活、建设智慧城市的重要一步。如何准确地探测群体用户访问行为的时空聚集访问模式,将网络虚拟空间访问行为映射为现实世界行为,是提升公共地图服务和推动智慧城市建设的关键所在。探寻了群体用户访问公共地图服务产生的热点聚集区域的时间及空间规律,基于海量用户访问日志记录,结合分组分析、时间序列统计分析和时空三维图可视化方法,挖掘得出公共地图服务热点区域具有明显的以星期为单位的周期自相似特征,多数热点区域在周期内连续出现;基于箱形图和频率密度图的统计方法,分析得到热点区域间距在空间上呈“小间距多,大间距少”的聚集分布形态,且在不同的图层中热点区域间距分布迥异。公共地图服务用户访问时空规律揭示了用户行为意图,可将人类活动数字化,促进智慧城市建设中人地关系的发展。
  • 图  1  地图热点区域单极化扩展示例

    Figure  1.  Examples of Single-Polarization Hotspots

    图  2  热点区域周期统计折线图

    Figure  2.  Periodic Line Chart of Hotspots

    图  3  每日热点区域三维散点图

    Figure  3.  Daily Three-Dimensional Scatter Plots of Hotspots

    图  4  热点区域属性统计图

    Figure  4.  Attribute Histogram of Hotspots

    图  5  热点区域尺度统计直方图

    Figure  5.  Scale Histogram of Hotspots

    图  6  热点区域间距箱形图

    Figure  6.  Hotspot Spacing Distance Boxplot

    图  7  热点区域间距频率密度直方图

    Figure  7.  Spacing Distance Density Histogram of Hotspots

    图  8  热点区域图层子集间距箱形图

    Figure  8.  Spacing Distance Boxplot of Hotspot Layer Subsets

    图  9  热点区域图层子集间距频率密度直方图

    Figure  9.  Spacing Distance Density Histogram of Hotspot Layer Subsets

    表  1  PMS图层瓦片分辨率表

    Table  1.   Resolution of Online Map Layer

    图层 分辨率
    第7层 1:2 500 000
    第8层 1:1 250 000
    第9层 1:1 000 000
    第10层 1:500 000
    第11层 1:250 000
    第12层 1:100 000
    第13层 1:50 000
    第14层 1:25 000
    第15层 1:10 000
    第16层 1:5 000
    第17层 1:2 500
    第18层 1:1 250
    下载: 导出CSV

    表  2  热点区域间距分位数统计表

    Table  2.   Quantile of Hotspot Spacing Distance

    概率值 分位数
    100% dmax 6 101.546 7
    50% dmid 993.557 0
    0% dmin 0.368 5
    drange 6 101.178 2
    75% Q3 1 517.216 1
    25% Q1 573.987 2
    R 943.228 9
    众数 703.655 6
    下载: 导出CSV
  • [1] 李仲杰. Internet上的地图与制图学信息[J].地图, 1998(3):24-25 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=QK199800041858

    Li Zhongjie. Cartography Information on Internet[J]. Cartography, 1998(3):24-25 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=QK199800041858
    [2] 崔文红.电子地图的应用及发展趋势[J].测绘与空间地理信息, 2008, 31(3):87-89 doi:  10.3969/j.issn.1672-5867.2008.03.028

    Cui Wenhong. The Application and Development Trends of Electronic Map[J]. Geomatics & Spatial Information Technology, 2008, 31(3):87-89 doi:  10.3969/j.issn.1672-5867.2008.03.028
    [3] Li R, Feng W, Wu H, et al. A Replication Strategy for a Distributed High-Speed Caching System Based on Spatiotemporal Access Patterns of Geospatial Data[J]. Computers Environment & Urban Systems, 2014(1):163-171 https://www.sciencedirect.com/science/article/pii/S019897151400026X
    [4] Chen M S, Park J S, Yu P S. Efficient Data Mining for Path Traversal Patterns[J].IEEE Transactions on Knowledge & Data Engineering, 1998, 10(2):209-221 http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.122.2278
    [5] Zaiane O R, Xin M, Han J. Discovering Web Access Patterns and Trends by Applying OLAP and Data Mining Technology on Web Logs[C]. IEEE Advances in Digital Libraries Conference, Washington D C, USA, 1998
    [6] Scime A, Kerschberg L. WebSifter: An Ontological Web-Mining Agent for E-Business[C]. IFIP TC2/WG2. 6 Ninth Working Conference on Database Semantics, Hong Kong, China, 2001
    [7] Wang W, Wang C, Zhu Y, et al. GraphMiner: A Structural Pattern-Mining System for Large Disk-Based Graph Databases and Its Applications[C]. ACM SIGMOD International Conference on Ma-nagement of Data, Baltimore, Maryland, USA, 2005
    [8] Gery M, Haddad H. Evaluation of Web Usage Mi-ning Approaches for User's Next Request Prediction[C]. ACM CIKM International Workshop on Web Information & Data Management, New Orleans, USA, 2003
    [9] Zukerman I, Albrecht D W, Nicholson A E. Predicting Users' Requests on the WWW[R]. CISM International Centre for Mechanical Sciences, Vienna, Austria, 1999
    [10] Pei J, Han J, Mortazavi-Asl B, et al. Mining Access Patterns Efficiently from Web Logs[M]//Terano T, Liu H, Chen A L P. Knowledge Discovery and Data Mining. Berlin, Heidelberg: Springer, 2000
    [11] Tao Y H, Hong T P, Su Y M. Web Usage Mining with Intentional Browsing Data[J].Expert Systems with Applications, 2008, 34(3):1893-1904 doi:  10.1016/j.eswa.2007.02.017
    [12] 宋擒豹, 沈钧毅. Web页面和客户群体的模糊聚类算法[J].小型微型计算机系统, 2001, 22(2):229-231 doi:  10.3969/j.issn.1000-1220.2001.02.028

    Song Qingbao, Shen Junyi. Fuzzy Clustering Algorithms for Web Pages and Customer Segments[J]. Mini-Micro System, 2001, 22(2):229-231 doi:  10.3969/j.issn.1000-1220.2001.02.028
    [13] 徐涌, 陈恩红, 王煦法.基于神经网络的Web用户行为聚类分析[J].小型微型计算机系统, 2001, 22(6):699-702 doi:  10.3969/j.issn.1000-1220.2001.06.016

    Xu Yong, Chen Enhong, Wang Xifa. Neural Network Based Web User Behavior Cluster Analysis[J]. Mini-Micro System, 2001, 22(6):699-702 doi:  10.3969/j.issn.1000-1220.2001.06.016
    [14] 樊玫. 基于Kohonen神经网络的用户访问模式挖掘模型的研究[D]. 南昌: 南昌大学, 2007

    Fan Mei. Research on the User Access Pattern Mining Model Based on Kohonen Neural Network[D]. Nanchang: Nanchang University, 2007
    [15] Fisher D.Hotmap:Looking at Geographic Attention[J]. IEEE Transactions on Visualization & Computer Graphics, 2007, 13(6):1184-1191 http://d.old.wanfangdata.com.cn/NSTLQK/NSTL_QKJJ0230092618/
    [16] Talagala N, Asami S, Patterson D, et al. The Art of Massive Storage:A Web Image Archive[J]. Computer, 2000, 33(11):22-28 doi:  10.1109/MC.2000.881691
    [17] Li Q, Zheng Y, Xie X, et al. Mining User Similarity Based on Location History[C]. The 16th ACM SIGspatial International Conference on Advances in Geographic Information Systems, ACM-GIS, Irvine, California, USA, 2008
    [18] Balamurugan V. Mining User Mobile Behavior in Location Based Services[J].International Journal of Scientific and Research Publications, 2012, 2(9):1-3 http://d.old.wanfangdata.com.cn/OAPaper/oai_doaj-articles_b7b77e9df8b8a77f9689719301293713
    [19] 吴华意, 李锐, 周振, 等.公共地图服务的群体用户访问行为时序特征模型及预测[J].武汉大学学报·信息科学版, 2015, 40(10):1279-1286 http://ch.whu.edu.cn/CN/abstract/abstract3334.shtml

    Wu Huayi, Li Rui, Zhou Zhen, et al. Research and Prediction on Time-Sequence Characteristics of Group-User Access Behavior in Public Map Service[J]. Geomatics and Information Science of Wuhan University, 2015, 40(10):1279-1286 http://ch.whu.edu.cn/CN/abstract/abstract3334.shtml
    [20] Li R, Shen Y, Huang W, et al. Regional WebGIS User Access Patterns Based on a Weighted Bipartite Network[C]. ISPRS International Workshop on Spatiotemporal Computing, Fairfax, Virginia, USA, 2015
    [21] Li R, Fan J, Jiang J, et al. Spatiotemporal Correlation in WebGIS Group-User Intensive Access Patterns[J]. International Journal of Geographical Information Science, 2017, 31(1):36-55 doi:  10.1080/13658816.2016.1170133
  • [1] 卞畏畏, 伍吉仓, 张磊, 高宇.  强震时空统计分析及InSAR同震形变场空间分布特征 . 武汉大学学报 ● 信息科学版, 2022, 47(6): 875-886. doi: 10.13203/j.whugis20220176
    [2] 夏小科, 贾庆仁, 杨泉, 金星, 李军.  一种面向三维WebGIS的空间数据加载优化方法 . 武汉大学学报 ● 信息科学版, 2020, 45(12): 1997-2004. doi: 10.13203/j.whugis20200184
    [3] 刘纪平, 董春, 亢晓琛, 邱士可, 赵荣, 栗斌, 孙立坚.  大数据时代的地理国情统计分析 . 武汉大学学报 ● 信息科学版, 2019, 44(1): 68-76, 83. doi: 10.13203/j.whugis20180420
    [4] 熊汉江, 郑先伟, 龚健雅.  面向虚拟地球的海陆地形多尺度TIN建模及可视化方法 . 武汉大学学报 ● 信息科学版, 2017, 42(11): 1597-1603. doi: 10.13203/j.whugis20150678
    [5] 陈金磊, 康志忠.  高分辨率三维激光扫描数据的微小变形统计分析 . 武汉大学学报 ● 信息科学版, 2015, 40(6): 744-750. doi: 10.13203/j.whugis20130358
    [6] 吴华意, 李锐, 周振, 蒋捷, 桂志鹏.  公共地图服务的群体用户访问行为时序特征模型及预测 . 武汉大学学报 ● 信息科学版, 2015, 40(10): 1279-1286,1316. doi: 10.13203/j.whugis20150283
    [7] 田晶, 何遒, 周梦杰.  运用Q统计分析网络空间现象关联模式 . 武汉大学学报 ● 信息科学版, 2014, 39(4): 486-491. doi: 10.13203/j.whugis20120562
    [8] 张清华, 隋立芬, 贾小林, 朱永兴.  北斗卫星导航系统空间信号误差统计分析 . 武汉大学学报 ● 信息科学版, 2014, 39(3): 271-274. doi: 10.13203/j.whugis20120062
    [9] 刘金硕, 程力, 王丽娜, 郑勇.  利用CUDA的剪切波数据三维可视化 . 武汉大学学报 ● 信息科学版, 2013, 38(11): 1271-1275.
    [10] 岳利群, 夏青, 柳佳佳, 陈轲.  利用偏最小二乘回归分析三维可视化系统的硬件影响因素 . 武汉大学学报 ● 信息科学版, 2012, 37(6): 746-749.
    [11] 李德毅, 张海粟, 王树良, 伍爵博.  维基百科统计分析研究 . 武汉大学学报 ● 信息科学版, 2012, 37(2): 127-131.
    [12] 郭俊, 牛铮.  利用遥感数据对单株木和森林场景进行建模 . 武汉大学学报 ● 信息科学版, 2011, 36(2): 181-184.
    [13] 王晓英, 戴仔强, 曹云昌, 宋连春.  中国地区地基GPS加权平均温度T_m统计分析 . 武汉大学学报 ● 信息科学版, 2011, 36(4): 412-416.
    [14] 康志忠, 张祖勋, 张剑清.  城市街道景观三维可视化的快速实现 . 武汉大学学报 ● 信息科学版, 2010, 35(2): 205-208.
    [15] 王世海, 岳天祥.  高精度曲面建模的三维地形可视化研究 . 武汉大学学报 ● 信息科学版, 2009, 34(1): 64-67.
    [16] 陈斐, 杜道生.  空间统计分析与GIS在区域经济分析中的应用 . 武汉大学学报 ● 信息科学版, 2002, 27(4): 391-396.
    [17] 陶本藻.  关于平差残差和单位权中误差的统计分析 . 武汉大学学报 ● 信息科学版, 2000, 25(5): 409-413.
    [18] 李飞鹏, 廖孟扬, 徐振勤, 王思贤.  医学图像三维重建中的快速表面绘制 . 武汉大学学报 ● 信息科学版, 2000, 25(2): 153-157.
    [19] 孙洪君, 杜道生, 李征航, 周勇前.  关于地球形状的三维可视化研究 . 武汉大学学报 ● 信息科学版, 2000, 25(2): 158-162.
    [20] 朱英浩, 张祖勋, 张剑清.  顾及地形的城市三维可视化方法研究 . 武汉大学学报 ● 信息科学版, 1998, 23(3): 199-203.
  • 加载中
图(9) / 表(2)
计量
  • 文章访问数:  1397
  • HTML全文浏览量:  80
  • PDF下载量:  438
  • 被引次数: 0
出版历程
  • 收稿日期:  2017-09-30
  • 刊出日期:  2018-09-05

公共地图服务中访问热点区域的时空规律挖掘

doi: 10.13203/j.whugis20160424
    基金项目:

    国家重点研发计划 2016YFB0502301

    国家自然科学基金 41771426

    作者简介:

    李锐, 教授, 博士, 主要研究方向为网络GIS理论与应用、时空计算与数据挖掘、网络空间行为分析及并行与分布式实时系统。ruili@whu.edu.cn

    通讯作者: 吴华意, 教授, 博士。wuhuayi@whu.edu.cn
  • 中图分类号: P208

摘要: 公共地图服务的普及是人们步入数字生活、建设智慧城市的重要一步。如何准确地探测群体用户访问行为的时空聚集访问模式,将网络虚拟空间访问行为映射为现实世界行为,是提升公共地图服务和推动智慧城市建设的关键所在。探寻了群体用户访问公共地图服务产生的热点聚集区域的时间及空间规律,基于海量用户访问日志记录,结合分组分析、时间序列统计分析和时空三维图可视化方法,挖掘得出公共地图服务热点区域具有明显的以星期为单位的周期自相似特征,多数热点区域在周期内连续出现;基于箱形图和频率密度图的统计方法,分析得到热点区域间距在空间上呈“小间距多,大间距少”的聚集分布形态,且在不同的图层中热点区域间距分布迥异。公共地图服务用户访问时空规律揭示了用户行为意图,可将人类活动数字化,促进智慧城市建设中人地关系的发展。

English Abstract

李锐, 沈雨奇, 蒋捷, 刘朝辉, 吴华意. 公共地图服务中访问热点区域的时空规律挖掘[J]. 武汉大学学报 ● 信息科学版, 2018, 43(9): 1408-1415. doi: 10.13203/j.whugis20160424
引用本文: 李锐, 沈雨奇, 蒋捷, 刘朝辉, 吴华意. 公共地图服务中访问热点区域的时空规律挖掘[J]. 武汉大学学报 ● 信息科学版, 2018, 43(9): 1408-1415. doi: 10.13203/j.whugis20160424
LI Rui, SHEN Yuqi, JIANG Jie, LIU Zhaohui, WU Huayi. Temporal and Spatial Characteristics of Hotspots in Public Map Service[J]. Geomatics and Information Science of Wuhan University, 2018, 43(9): 1408-1415. doi: 10.13203/j.whugis20160424
Citation: LI Rui, SHEN Yuqi, JIANG Jie, LIU Zhaohui, WU Huayi. Temporal and Spatial Characteristics of Hotspots in Public Map Service[J]. Geomatics and Information Science of Wuhan University, 2018, 43(9): 1408-1415. doi: 10.13203/j.whugis20160424
  • 近年来,公共地图服务(public map service,PMS)已经得到普及,为人们的生活体验和工作带来了便利[1-2]。研究基于海量的PMS访问日志,挖掘群体用户访问的时空模式,将人类的现实活动数字化,推动智慧城市的进程,具有重要的意义[3]

    早期的Web日志挖掘分析吸引了大批的专家和学者投身其中。1998年,文献[4]最早利用最大前向引用的数据挖掘方法研究Web访问者的访问意图。文献[5]将Web转化为数据立方体,挖掘和分析用户的访问规律。文献[6]设计了Webminer系统,自动化地发现日志数据的隐含模式。文献[7]提出了GraphMiner,采用数据立方体深入挖掘用户在访问过程中的频繁访问内容。文献[8-9]分别基于时间序列的关联规则和概率模型对预测用户访问行为进行了研究。文献[10]提出了扩展有向树模型,该模型有效地识别了用户浏览序列中的Web访问模式树。文献[11]针对包含意图的浏览数据提出了抓取和分类的方法。文献[12]使用了模糊聚类的挖掘算法,提取用户频繁访问路径。文献[13]基于神经网络算法找出了隐含在数据中的用户行为模式。文献[14]基于Kohonen神经网络进行了用户访问模式的挖掘。

    网络地理信息系统(WebGIS)的地理信息因其时空属性,相比Web用户行为分析更具挑战性。文献[15-16]研究发现数字地球中影像数据的访问请求服从Zipf-like分布。文献[17]基于层次图相似性度量的框架结构实现了相似用户服务的推荐。文献[18]使用时空移动序列模式挖掘算法对用户群之间的相似性进行了评估。文献[19]基于时间序列聚类方法建立了WebGIS中群体用户访问到达行为的时序分布模型。文献[20]研究并发现群体用户访问WebGIS行为呈现时空上的聚集性和规律性,并构造泊松回归模型量化瓦片访问模式的时空关系[21]

    以上研究说明WebGIS中用户访问行为具有突发性和聚集性。但目前研究多从空间数据的时间属性或空间属性等单一角度入手,很少对用户的访问行为时间属性和空间属性进行综合的分析和研究。本文在前人研究的基础上,不仅分析了海量的WebGIS用户访问数据,以地理信息空间聚集性为基础提出了PMS热点区域的概念,而且以热点区域为对象,将用户访问行为的时空属性统筹兼顾,研究客观地反映用户访问PMS的时空规律。

    • 本节定义了用户访问PMS热点区域集合,从热点区域的周期特征以及时间规律对热点区域的时间属性加以分析。

      研究的数据样本集为“天地图”在2015-06-01—2015-06-29期间公众用户的PMS访问记录。“天地图”日访问量超过2 000 000次,数据量达14 GB。研究定义集合T={τx,y, l}表示PMS的地图瓦片集合,其中下标xy分别为地图瓦片的行号和列号,l为地图图层序号;函数F(t, τx, y, l)表达在日期t瓦片τx, y, l的日访问频次;函数T(t, τx, y, l)表达瓦片τx, y, l在日期t中是否被访问,值为0或1。

      本文中访问热点区域是被访问频次高、群体用户访问兴趣浓厚、访问聚集性强的地图瓦片集合,简称为热点区域。对原始用户访问数据逐天逐层按照一定的规则提取用户访问的热点区域。

      热点区域的提取规则如下:

      1) 根据日期t依次提取图层l中的热点区域。定义中心瓦片为cx, y, l,其中下标xy分别为地图瓦片的行号和列号,l为地图图层序号;其访问频次由F(t, cx, y, l)决定,中心瓦片cx, y, l的定义为:

      $$ \left\{ \begin{array}{l} F\left( {t,{c_{x,y,l}}} \right) > F\left( {t,{\tau _{x - 1,y,l}}} \right)\\ F\left( {t,{c_{x,y,l}}} \right) > F\left( {t,{\tau _{x + 1,y,l}}} \right)\\ F\left( {t,{c_{x,y,l}}} \right) > F\left( {t,{\tau _{x,y - 1,l}}} \right)\\ F\left( {t,{c_{x,y,l}}} \right) > F\left( {t,{\tau _{x,y + 1,l}}} \right) \end{array} \right. $$ (1)

      2) 定义热点区域的中心瓦片的最低访问频次Fmin(t, cx, y, l)为b次,即

      $$ F\left( {t,{c_{x,y,l}}} \right) \ge b $$ (2)

      3) 热点区域可能存在单极化扩展的异常情况,如图 1所示,其中τx, y, l为热点区域的中心瓦片,被用户访问的地图瓦片为灰色。

      图  1  地图热点区域单极化扩展示例

      Figure 1.  Examples of Single-Polarization Hotspots

      图 1显示,以τx, y, l为中心的3×3最小包围矩形地图瓦片的访问体现了热点区域的扩展情况。本文筛选均匀扩展的热点区域,规定3×3的最小包围矩形内至少有4个瓦片被用户访问,即

      $$ \begin{array}{*{20}{c}} {T\_{c_{x,y,l}} = \sum\limits_{X = - 1}^1 {\sum\limits_{Y = - 1}^1 {T\left( {t,{\tau _{x + X,y + Y,l}}} \right)} } ,}\\ {T\_{c_{x,y,l}} \ge 4} \end{array} $$ (3)

      根据上述规则,本文从数据样本集中提取出6 000个热点区域作为后续的研究数据集,涵盖了560 180个地图瓦片,总访问量达25 437 000次。热点区域数据集的基本信息包括热点区域编号、图层、访问日期、热点区域中心瓦片的行列号、经纬度和访问频次。

    • 根据日期属性,将热点区域数据集划分为子数据集,记为:

      $$ {T_t} = \left\{ {{\tau _{x,y,l}}} \right\} $$ (4)

      式中,Tt(t=1, 2…p)为不同日期对应的热点区域日期划分子集;t为热点区域的日期标识。函数N(Tt)计算了热点区域日期划分子数据集的元素个数:

      $$ N\left( {{T_t}} \right) = \sum\limits_x {\sum\limits_y {\sum\limits_l {T\left( {t,{\tau _{x,y,l}}} \right)} } } $$ (5)

      对2015年6月“天地图”热点区域日期划分子数据集,挖掘热点区域的周期特征,将日期划分数据样本集提取的热点区域形成统计结果子集,得到其随时间变化的折线图(见图 2)。

      图  2  热点区域周期统计折线图

      Figure 2.  Periodic Line Chart of Hotspots

      图 2可以分析得出:热点区域的个数在工作日与非工作日有明显的数量差距。工作日每日的热点区域个数基本在200个以上,最多时可以达到342个(6月24日);而在非工作日,热点区域的个数仅在100~150之间。热点区域的个数随时间的变化呈现“工作日高,非工作日低”的以星期为单位的周期特征,而在短的时间粒度上(如每日),热点区域的个数具有随机性。

    • 探寻用户访问时间规律的工作在数据挖掘研究中屡见不鲜,但将时间属性与空间属性进行统一考虑的研究较少。本节对用户PMS访问行为的时间规律与地图瓦片的空间属性结合进行了探究,使用时空三维散点图的形式表现热点区域的空间分布随时间的变化,将空间和时间属性有机统一,探究热点区域的时空访问规律。如图 3所示的三维散点图中,圆点表示热点区域,XY轴为热点区域中心瓦片的经纬度,Z轴为热点区域的访问日期。同时统计不同持续性特征的热点区域对应的功能属性表,如图 4所示。

      图  3  每日热点区域三维散点图

      Figure 3.  Daily Three-Dimensional Scatter Plots of Hotspots

      图  4  热点区域属性统计图

      Figure 4.  Attribute Histogram of Hotspots

      图 3可视化地展示了热点区域中心的地理位置随时间的变化趋势。热点区域的三维散点图显示:大部分热点区域在三维立方体内沿垂直经纬度平面的方向连续出现,且出现的持续时间较长;小部分热点区域的时序的连线虽平行于时间轴,但是其时间持续性短;极少部分点在时间轴方向上仅出现一到两次,且在经纬度平面上的位置比较随机。结合属性统计图(见图 4),热点区域在时间维度上的持续性是由热点区域的地理属性决定的,持续性热点区域和暂时性热点区域的各类功能属性比例有显著差异:用户对行政地名、旅游景点和房产小区等热点区域访问持续时间长;暂时性热点区域中,时事热点区域等比例明显高于其余类别,用户访问持续时间较短但热度高。由此可见,热点区域的功能属性是影响热点区域持续时间长短的重要因素。

      本节从热点区域日期子集的周期特征和时间规律两方面来进行研究,发现PMS用户访问热点区域周期特征明显,呈现“工作日高, 非工作日低”的以星期为单位的周期性。热点区域时空三维散点图显示大多数热点区域的分布具有稳定的特征,在连续的周期内会持续出现,小部分热点区域的出现或消失受到用户访问兴趣的变化的影响仅在较短时间内出现。热点区域的属性是决定热点区域时间持续性的关键因素。

    • PMS用户所访问的地理信息具有空间属性,使得用户访问的内容中隐含着一定的空间分布规律。本节基于§1.2中提取的热点区域数据集合,对热点区域的尺度特征、间距分布特征两方面进行探究,揭示热点区域访问中隐含的空间规律。

      本文的热点区域数据集按图层属性将数据集划分为子数据集,记为:

      $$ {T_l} = \left\{ {{\tau _{x,y,l}}} \right\} $$ (6)

      式中,Tl(l=1, 2…q)为不同图层对应的热点区域图层划分子集;l为热点区域的图层标识。

    • PMS不同图层的比例尺不相同,且不同的图层中的热点区域数目也不相同,PMS的热点区域具有明显的尺度特征。本节对热点区域图层划分子数据集,分析并挖掘热点区域的尺度特征。函数L(Tl)计算了热点区域图层划分子数据集的元素个数:

      $$ L\left( {{T_l}} \right) = \sum\limits_x {\sum\limits_y {\sum\limits_l {T\left( {t,{\tau _{x,y,l}}} \right)} } } $$ (7)

      将热点区域图层划分子集的统计结果以直方图的形式表示,如图 5所示。

      图  5  热点区域尺度统计直方图

      Figure 5.  Scale Histogram of Hotspots

      图 5显示了在不同的地图图层中,用户访问产生的热点区域个数不同,热点区域数目最多集中在PMS第11层,其次是12层,热点区域个数分别为1 492个和1 140个。其余各个图层的热点区域个数按距第11层的距离呈现逐层递减的趋势,第7、17、18层的热点区域个数均在120个以下。PMS热点区域个数从第7层到第18层呈现“中层级高,低层级与高层级低”的规律。

      结合表 1的“天地图” PMS不同图层的分辨率分析得出,热点区域集中出现第11、12层,其地图瓦片分辨率在1:250 000与1:100 000之间。第11、12层PMS能显示街道分布信息以及重要的城市区域信息,用户针对感兴趣的地图区域缩放一个至两个层级,用以浏览详细信息或周边布局。上述图层基本满足用户的日常工作生活需求。结合地图瓦片分辨率,过大或者过小的地图分辨率均会影响用户获取地图信息的完整性和详细性。因此,用户访问PMS产生的热点区域个数从第7层到第18层呈现“中层级高,低层级与高层级低”的规律。

      表 1  PMS图层瓦片分辨率表

      Table 1.  Resolution of Online Map Layer

      图层 分辨率
      第7层 1:2 500 000
      第8层 1:1 250 000
      第9层 1:1 000 000
      第10层 1:500 000
      第11层 1:250 000
      第12层 1:100 000
      第13层 1:50 000
      第14层 1:25 000
      第15层 1:10 000
      第16层 1:5 000
      第17层 1:2 500
      第18层 1:1 250
    • 热点区域的间距中隐含着用户访问热点时空相关性的规律。本节计算了同一图层中的两个热点区域的中心瓦片Ci和瓦片Cj在日期t的两两之间的经纬度实地距离Di

      $$ \left\{ \begin{array}{l} C = \sin {y_i} \times \sin {y_j} + \cos {y_i} \times \cos {y_j} \times \\ \;\;\;\;\;\;\cos \left( {{x_i} - {x_j}} \right)\\ {D_i}\left( {t,{c_{{x_i},{y_i},l}},{c_{{x_j},{y_j},l}}} \right) = r \times \arccos C \times {\rm{ \mathsf{ π} }}/180 \end{array} \right. $$ (8)

      式中,xy表示热点区域中心瓦片CiCj的经度和纬度;r为地球半径。由式(8)计算得到的间距数据剔除异常值数据后,得到约100 000个间距数据项构成“天地图”热点区域间距数据集D= {di, j, l},间距数据集中的基本统计信息包括间距、图层、日期、间距对应的热点区域的编号、中心瓦片经纬度和访问频次。

      本节采用箱形图和频率密度直方图的统计分析方法研究与分析热点区域间距。箱形图是一种样本数据统计图,其统计特征如下:

      1) 箱形上、下横线分别为样本的上、下四分位数。对本文中的间距样本数组按从小到大的顺序重新排列得到D= {di, j, l} = {d1, d2dn}。样本上、下四分位数为:

      $$ {Q_1} = {d_{3\left( {n + 1} \right)/4}} $$ (9)
      $$ {Q_3} = {d_{\left( {n + 1} \right)/4}} $$ (10)

      2) 箱形中间的横线为间距样本的中位数:

      $$ \left\{ \begin{array}{l} {d_{{\rm{mid}}}} = {d_{\left( {n + 1} \right)/2}},n\;为奇数\\ {d_{{\rm{mid}}}} = \frac{1}{2}\left[ {{d_{n/2}} + x{d_{n/2 + 1}}} \right],n\;为偶数 \end{array} \right. $$ (11)

      3) 箱形的上、下界分别在Q1-k(Q3-Q1)和Q1+k(Q3-Q1)样本序列中的数值位置,通常k=1.5。超过样本的上、下界的值称为异常值,异常值过多时,需要进行异常值剔除数据处理。

      箱形统计还有如下特征值:

      1) 极差drange:样本序列最大值与最小值的差值,即

      $$ {d_{{\rm{range}}}} = {d_{{\rm{max}}}} - {d_{{\rm{min}}}} $$ (12)

      2) 四分位距:样本序列中上、下四分位数的差值,即

      $$ R = {Q_3} - {Q_1} $$ (13)

      将热点区域间距数据集中的间距数据根据式(9)~(13)计算得到热点区域间距分布分位数统计表(见表 2)。

      表 2  热点区域间距分位数统计表

      Table 2.  Quantile of Hotspot Spacing Distance

      概率值 分位数
      100% dmax 6 101.546 7
      50% dmid 993.557 0
      0% dmin 0.368 5
      drange 6 101.178 2
      75% Q3 1 517.216 1
      25% Q1 573.987 2
      R 943.228 9
      众数 703.655 6

      根据热点区域间距的分位数统计结果,绘制热点区域间距分布的箱形图(见图 6)。图 6中横坐标为热点区域间距,四分位距为943 km,占极差的15.46%。四分位距占极差的比例较小,热点区域间距分布比较集中,多数间距在500~1 500 km之间。热点区域间距数据最小值是368 m,说明在“天地图”的用户访问PMS热点的邻近区域产生另一个热点区域的概率较大。

      图  6  热点区域间距箱形图

      Figure 6.  Hotspot Spacing Distance Boxplot

      图 6可以看出,这些热点区域的分布是聚集且连续的。这是由大多数PSM用户访问目的的相似性与聚集性导致的。小部分用户有其特殊的目的性,由此生成的热点区域较其他热点区域的间距远。因此,热点区域间距频率密度统计图呈现“小间距多,大间距少”的分布形态。

      直方图的分析方法是统计学中数值型数据研究的重要组成部分。将热点区域间距数据集绘制为热点区域间距分布的频率密度直方图(见图 7)。

      图  7  热点区域间距频率密度直方图

      Figure 7.  Spacing Distance Density Histogram of Hotspots

      图 7显示热点区域的密度随间距的增大而增大,在间距约为400 km时达到小高峰;之后随着间距的继续增大而减少,在间距约为500 km时达到第一个谷值;随后热点区域对的密度发生反弹,不断增加,在间距约为1 000 km时达到极大值,说明间距约为1 000 km的热点区域对的数目最多;随后,热点区域对密度随着间距的增大缓慢递减至0。

    • PMS不同图层中热点区域的间距分布不一致。本文中热点区域间距数据集D= {di, j, l}按不同的图层属性将数据集划分为不同的子数据集,记为:

      $$ {D_l} = \left\{ {{d_{i,j,l}}} \right\} $$ (14)

      式中,Dl(l=1, 2…q)为不同图层对应的间距图层划分子集;l为间距数据的图层标识。对热点区域进行深入分析,使用第7~18层的间距数据子集绘制得到热点区域间距分布的箱形图(见图 8)和间距频率密度直方图(见图 9)。

      图  8  热点区域图层子集间距箱形图

      Figure 8.  Spacing Distance Boxplot of Hotspot Layer Subsets

      图  9  热点区域图层子集间距频率密度直方图

      Figure 9.  Spacing Distance Density Histogram of Hotspot Layer Subsets

      图 89可得出:PSM第9、10、11、12层的热点区域间距分布与整体的间距分布相似。箱形图显示热点区域间距分布比较集中,多数间距在500~1 500 km之间。间距密度统计直方图则稍有不同,热点区域密度随间距增加,呈现先增加后减小的变化趋势,且增长速度较下降速度快,因此也形成了“小间距多,大间距少”的分布形态。其余各层的热点区域间距的分布情况不具有明显的规律性。

      结合图 5,热点区域在第9、10、11、12层中的热点区域个数远高于其余图层,最小值为775个;其余各层的热点区域数量均较小,热点区域均在100个左右。热点区域间距在不同图层的分布情况说明热点区域的分布在每层中各不相同:第7、17、18层热点区域较少,热点区域间距分布随机性强,没有明显规律性;用户访问PMS产生大量热点区域的图层中(如第10、11、12层),间距的分布与图 78中整体间距的分布相似,形成“小间距多,大间距少”的聚集分布形态。

      本节以探求热点区域空间规律为目的,对热点区域尺度、间距分布和间距尺度3种特征进行研究。本文发现热点区域分布具有显著的空间特征:热点区域个数在不同图层不相同,逐层呈现“中层级高,低层级与高层级低”的规律,主要分布在“天地图”第11、12层;热点区域的间距分布情况显示热点区域分布是聚集且连续的,热点区域间距频率密度统计图呈现“小间距多,大间距少”的分布形态;不同的图层中热点区域间距分布形态不同,图层中的热点区域数量影响着热点区域间距分布的随机性。

    • 挖掘和分析海量用户的访问行为规律可推动公共地图服务的不断革新,促进智慧城市中人地关系的发展。本文基于海量的访问日志数据,挖掘得出单日的PMS热点区域的规模具有随机性,逐天呈现“工作日高,非工作日低”的以星期为单位的周期特征;热点区域时空三维散点图显示,大多数热点区域的分布具有稳定的特征,在连续的周期内会持续出现,热点区域的地理属性是决定热点区域时间持续性的关键因素。研究得出,由于不同尺度的地图信息详略程度不同,PMS的热点区域逐层呈现一个“中层级高,低层级与高层级低”的规律;热点区域间距箱形图和频率密度直方图显示热点区域在空间上的分布是聚集且连续的;不同图层的热点区域个数影响着热点区域间距分布的随机性。

      热点区域的时空分布与其影响要素(如空间数据的地理属性、访问用户的区域特征等)有一定的定量关系。未来将研究与建立数学模型表达热点区域时空间距及其与影响要素的关联关系,定量地刻画用户虚拟的空间访问行为到真实的物理世界的映射关系,探索如何更好地将用户的现实活动进行数字建模,推进智慧城市的建设。

参考文献 (21)

目录

    /

    返回文章
    返回