留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

利用模糊密度聚类和双向缓冲区自动识别热点区

崔晓杰 王家耀 巩现勇 赵耀

崔晓杰, 王家耀, 巩现勇, 赵耀. 利用模糊密度聚类和双向缓冲区自动识别热点区[J]. 武汉大学学报 ● 信息科学版, 2019, 44(1): 84-91. doi: 10.13203/j.whugis20180358
引用本文: 崔晓杰, 王家耀, 巩现勇, 赵耀. 利用模糊密度聚类和双向缓冲区自动识别热点区[J]. 武汉大学学报 ● 信息科学版, 2019, 44(1): 84-91. doi: 10.13203/j.whugis20180358
CUI Xiaojie, WANG Jiayao, GONG Xianyong, ZHAO Yao. Hotspot Area Recognition by Using Fuzzy Density Clustering and Bidirectional Buffer[J]. Geomatics and Information Science of Wuhan University, 2019, 44(1): 84-91. doi: 10.13203/j.whugis20180358
Citation: CUI Xiaojie, WANG Jiayao, GONG Xianyong, ZHAO Yao. Hotspot Area Recognition by Using Fuzzy Density Clustering and Bidirectional Buffer[J]. Geomatics and Information Science of Wuhan University, 2019, 44(1): 84-91. doi: 10.13203/j.whugis20180358

利用模糊密度聚类和双向缓冲区自动识别热点区

doi: 10.13203/j.whugis20180358
基金项目: 

中国工程院重点咨询研究项目 2017-XZ-13

详细信息

Hotspot Area Recognition by Using Fuzzy Density Clustering and Bidirectional Buffer

Funds: 

The Key Projects of Consultation and Research of the Chinese Academy of Engineering 2017-XZ-13

More Information
    Author Bio:

    CUI Xiaojie, PhD candidate, specializes in map distribution pattern recognition and cartographic generalization. E-mail: cuixiaojie1990@qq.com

    Corresponding author: GONG Xianyong, lecturer, PhD. E-mail: gongxygis@whu.edu.cn
  • 摘要: 通过数据挖掘手段获取聚集模式(即热点)等地理空间知识是地理信息智能化服务的基础和前提。点群聚集模式的提取本质上是热点及其边界(热点区)的探测。首先分析了使用空间聚类提取热点并以凸壳表达热点轮廓的不足,进而提出一种利用模糊密度聚类和双向缓冲区的热点区自动识别方法。该方法借鉴模糊集理论,通过计算对象之间的模糊隶属度改进基于密度的聚类算法,用以提取点群的聚集模式;在此基础上,将模糊隶属度作为对象间的影响程度,采用正负缓冲区建立热点边界。以郑州市城区的科研机构点为例进行实验,结果表明,提出的方法既能有效区分空间点的类型(噪声点与非噪声点),又能生成连续平滑的热点边界,总体效果优于对比方法。
  • 图  1  DBSCAN方法存在的问题

    Figure  1.  Problems in DBSCAN Method

    图  2  两种隶属度函数

    Figure  2.  Two Kinds of Membership Degree Functions

    图  3  正负缓冲区法生成边界的示意图

    Figure  3.  Results of Simulated Data Schematic Diagram of Boundary Generation

    图  4  模拟数据的实验结果

    Figure  4.  Results of Simulated Data

    图  5  实验数据

    Figure  5.  Experimental Data

    图  6  科研机构POI的6-dist图(k=6)

    Figure  6.  6-dist Chart of Scientific POIs(k=6)

    图  7  本文方法识别结果

    Figure  7.  Results Recognized by This Method

    图  8  DBSCAN+凸壳法识别结果

    Figure  8.  Results Recognized by DBSCAN-Convex Hull Method

    图  9  核密度+等值线法识别结果

    Figure  9.  Results Recognized by Kernel Density-Contour Method

    表  1  3种方法比较说明

    Table  1.   Comparison of Three Methods

    方法 热点区个数 是否剔除噪声点 边界是否光滑 边界形状 边界与点的包含关系
    本文方法 14 任意 清晰
    DBSCAN+凸壳法 9 凸多边形 清晰
    核密度+等值线法 11 任意 模糊
    下载: 导出CSV
  • [1] 王家耀.时空大数据时代的地图学[J].测绘学报, 2017, 46(10):1226-1237 doi:  10.11947/j.AGCS.2017.20170308

    Wang Jiayao. Cartography in the Age of Spatial-Temporal Big Data[J]. Acta Geodaetica et Cartographica Sinica, 2017, 46(10):1226-1237 doi:  10.11947/j.AGCS.2017.20170308
    [2] 王家耀, 崔晓杰.创新驱动地理信息产业转型发展[M]//测绘地理信息蓝皮书: 测绘地理信息转型升级研究报告(2014).北京: 社会科学文献出版社, 2014: 201-217

    Wang Jiayao, Cui Xiaojie. Transformation and Development of Geoinformation Industry Driven by Innovation[M]//Blue Book of China's Surveying, Mapping and Geoinformation: Report on Transformation and Upgrading of Surveying, Mapping and Geoinformation (2014). Beijing: Social Sciences Academic Press, 2014: 201-217
    [3] 龚健雅, 耿晶, 吴华意.地理空间知识服务概论[J].武汉大学学报·信息科学版, 2014, 39(8):883-890 http://ch.whu.edu.cn/CN/abstract/abstract3038.shtml

    Gong Jianya, Geng Jing, Wu Huayi. Geospatial Knowledge Service:A Review[J].Geomatics and Information Science of Wuhan University, 2014, 39(8):883-890 http://ch.whu.edu.cn/CN/abstract/abstract3038.shtml
    [4] 王家耀, 崔晓杰. "互联网+"时代的地理时空大数据与智慧城市[M]//测绘地理信息蓝皮书: 新常态下的测绘地理信息研究报告(2015).北京: 社会科学文献出版社, 2015: 149-164

    Wang Jiayao, Cui Xiaojie."Internet+" Spatial and Temporal Big Data and Smart City[M]//Blue Book of China's Surveying, Mapping and Geoinformation: Report on Surveying, Mapping and Geoinformation Under the New Normal(2015). Beijing: Social Sciences Academic Press, 2015: 149-164
    [5] 李德仁.从测绘学到地球空间信息智能服务科学[J].测绘学报, 2017, 46(10):1207-1212 doi:  10.11947/j.AGCS.2017.20170263

    Li Deren. From Geomatics to Geospatial Intelligent Service Science[J]. Acta Geodaetica et Cartographica Sinica, 2017, 46(10):1207-1212 doi:  10.11947/j.AGCS.2017.20170263
    [6] 武芳, 巩现勇, 杜佳威.地图制图综合回顾与前望[J].测绘学报, 2017, 46(10):1645-1664 doi:  10.11947/j.AGCS.2017.20170287

    Wu Fang, Gong Xianyong, Du Jiawei. Overview of the Research Progress in Automated Map Generalization[J]. Acta Geodaetica et Cartographica Sinica, 2017, 46(10):1645-1664 doi:  10.11947/j.AGCS.2017.20170287
    [7] 毛政元.集聚型空间点模式结构信息提取研究[J].测绘学报, 2007, 36(2):181-186 doi:  10.3321/j.issn:1001-1595.2007.02.012

    Mao Zhengyuan. The Study of Extracting Structure Information of a Clustered Spatial Point Pattern[J].Acta Geodaetica et Cartographica Sinica, 2007, 36(2):181-186 doi:  10.3321/j.issn:1001-1595.2007.02.012
    [8] Galton A, Duckham M. What is the Region Occupied by a Set of Points?[C]//International Conference on Geographic Information Science. Berlin, Heidelberg: Springer, 2006: 81-98
    [9] Duckham M, Kulik L, Worboys M, et al. Efficient Generation of Simple Polygons for Characterizing the Shape of a Set of Points in the Plane[J]. Pattern Recognition, 2008, 41(10):3224-3236 doi:  10.1016/j.patcog.2008.03.023
    [10] Liu Y, Yuan Y, Xiao D, et al. A Point-Set-Based Approximation for Areal Objects:A Case Study of Representing Localities[J]. Computers, Environment and Urban Systems, 2010, 34(1):28-39 doi:  10.1016/j.compenvurbsys.2009.05.001
    [11] Akdag F, Eick C F, Chen G. Creating Polygon Models for Spatial Clusters[C].International Symposium on Methodologies for Intelligent Systems, Roskilde, Denmark, 2014
    [12] Hollenstein L, Purves R. Exploring Place Through User-Generated Content:Using Flickr to Describe City Cores[J]. Journal of Spatial Information Science, 2010, 1(1):21-48 http://d.old.wanfangdata.com.cn/OAPaper/oai_doaj-articles_16f8d5446d9cccb51d12a0a769043824
    [13] 许泽宁, 高晓路.基于电子地图兴趣点的城市建成区边界识别方法[J].地理学报, 2016, 71(6):928-939 http://d.old.wanfangdata.com.cn/Periodical/dlxb201606003

    Xu Zening, Gao Xiaolu. A Novel Method for Identifying the Boundary of Urban Built-up Areas with POI Data[J]. Acta Geographica Sinica, 2016, 71(6):928-939 http://d.old.wanfangdata.com.cn/Periodical/dlxb201606003
    [14] 薛东前, 黄晶, 马蓓蓓, 等.西安市文化娱乐业的空间格局及热点区模式研究[J].地理学报, 2014, 69(4):541-552 http://d.old.wanfangdata.com.cn/Periodical/dlxb201404010

    Xue Dongqian, Huang Jing, Ma Beibei, et al. Spatial Distribution Characteristics and Hot Zone Patterns of Entertainment Industry in Xi'an[J]. Acta Geographica Sinica, 2014, 69(4):541-552 http://d.old.wanfangdata.com.cn/Periodical/dlxb201404010
    [15] 陈鹏, 李欣, 胡啸峰, 等.北京市长安街沿线的扒窃案件高发区分析及防控对策[J].地理科学进展, 2015, 34(10):1250-1258 http://d.old.wanfangdata.com.cn/Periodical/dlkxjz201510005

    Chen Peng, Li Xin, Hu Xiaofeng, et al. Clustering Pattern Analysis and Prevention Strategies to Pickpocketing Offence Along the Chang'an Street in Beijing[J]. Progress in Geography, 2015, 34(10):1250-1258 http://d.old.wanfangdata.com.cn/Periodical/dlkxjz201510005
    [16] Shen J, Liu X, Chen M. Discovering Spatial and Temporal Patterns from Taxi-Based Floating Car Data:A Case Study from Nanjing[J]. GIScience & Remote Sensing, 2017, 54(5):617-638 doi:  10.1080/15481603.2017.1309092
    [17] 田晶, 熊富全, 程雪萍, 等.道路密度分区及其在道路选取质量评价中的应用[J].武汉大学学报·信息科学版, 2016, 41(9):1225-1231 http://ch.whu.edu.cn/CN/abstract/abstract5532.shtml

    Tian Jing, Xiong Fuquan, Cheng Xueping, et al. Road Density Partition and Its Application in Evaluation of Road Selection[J].Geomatics and Information Science of Wuhan University, 2016, 41(9):1225-1231 http://ch.whu.edu.cn/CN/abstract/abstract5532.shtml
    [18] 吴康敏, 张虹鸥, 王洋, 等.广州市多类型商业中心识别与空间模式[J].地理科学进展, 2016, 35(8):963-974 http://d.old.wanfangdata.com.cn/Periodical/dlkxjz201608005

    Wu Kangmin, Zhang Hong'ou, Wang Yang, et al. Identify of the Multiple Types of Commercial Center in Guangzhou and Its Spatial Pattern[J].Progress in Geography, 2016, 35(8):963-974 http://d.old.wanfangdata.com.cn/Periodical/dlkxjz201608005
    [19] Yu W, Ai T, Shao S. The Analysis and Delimitation of Central Business District Using Network Kernel Density Estimation[J].Journal of Transport Geography, 2015, 45(1):32-47 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=e2ca5a8d725aa3d21f2ee97be1086d53
    [20] Tang M, Zhou Y, Cui P, et al. Discovery of Migration Habitats and Routes of Wild Bird Species by Clustering and Association Analysis[C].International Conference on Advanced Data Mining and Applications, Beijing, China, 2009
    [21] Hu Y, Gao S, Janowicz K, et al. Extracting and Understanding Urban Areas of Interest Using Geotagged Photos[J]. Computers, Environment and Urban Systems, 2015, 54:240-254 doi:  10.1016/j.compenvurbsys.2015.09.001
    [22] Gao S, Janowicz K, Montello D R, et al. A Data-Synthesis-Driven Method for Detecting and Extracting Vague Cognitive Regions[J]. International Journal of Geographical Information Systems, 2017, 31(6):1245-1271 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=f8881184ea571e48f056220884525381
    [23] 高凯, 杨敏, 张跃鹏.保持空间分布特征的散列式居民地综合选取方法[J].测绘科学技术学报, 2015, 32(6):626-630 doi:  10.3969/j.issn.1673-6338.2015.06.016

    Gao Kai, Yang Min, Zhang Yuepeng. A Method of Automatic Selection of Hash-Style Habitation with Spatial Distribution Characteristics Preserved[J].Journal of Geomatics Science and Technology, 2015, 32(6):626-630 doi:  10.3969/j.issn.1673-6338.2015.06.016
    [24] Miller H, Han J. Geographic Data Mining and Knowledge Discovery[M]. 2nd ed. New York:CRC, 2009
    [25] Deng M, Liu Q, Cheng T, et al. An Adaptive Spatial Clustering Algorithm Based on Delaunay Triangulation[J]. Computers Environment & Urban Systems, 2011, 35(4):320-332 http://www.sciencedirect.com/science/article/pii/S019897151100024X
    [26] Liu Q, Deng M, Shi Y, et al. A Density-Based Spatial Clustering Algorithm Considering Both Spatial Proximity and Attribute Similarity[J]. Computers and Geosciences, 2012, 46(3):296-309 http://d.old.wanfangdata.com.cn/NSTLQK/NSTL_QKJJ0228067695/
    [27] Ester M, Kriegel H P, Sander J, et al. A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise[C]//Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining. Portland: AAAI Press, 1996: 226-231
    [28] 贺丹, 陈松灿.基于DC规划的鲁棒模糊核聚类算法[J].模式识别与人工智能, 2016, 29(8):744-750 http://d.old.wanfangdata.com.cn/Periodical/mssbyrgzn201608009

    He Dan, Chen Songcan. Robust Kernal-Based Fuzzy Clustering Using Difference of Convex Functions Programming[J].Pattern Recognition and Artificial Intelligence, 2016, 29(8):744-750 http://d.old.wanfangdata.com.cn/Periodical/mssbyrgzn201608009
    [29] Nasibov E N, Ulutagay G. Robustness of Density-Based Clustering Methods with Various Neighborhood Relations[J]. Fuzzy Sets and Systems, 2009, 160(24):3601-3615 doi:  10.1016/j.fss.2009.06.012
    [30] 郭仁忠.空间分析[M]. 2版.北京:高等教育出版社, 2001

    Guo Renzhong. Spatial Analysis[M]. 2nd ed. Beijing:Higher Education Press, 2001
    [31] 禹文豪, 艾廷华, 杨敏, 等.利用核密度与空间自相关进行城市设施兴趣点分布热点探测[J].武汉大学学报·信息科学版, 2016, 41(2):221-227 http://ch.whu.edu.cn/CN/abstract/abstract3459.shtml

    Yu Wenhao, Ai Tinghua, Yang Min, et al. Detecting "Hot Spots" of Facility POIs Based on Kernel Density Estimation and Spatial Autocorrelation Technique[J]. Geomatics and Information Science of Wuhan University, 2016, 41(2):221-227 http://ch.whu.edu.cn/CN/abstract/abstract3459.shtml
  • [1] 程绵绵, 孙群, 李少梅, 徐立.  顾及密度对比的多层次聚类点群选取方法 . 武汉大学学报 ● 信息科学版, 2019, 44(8): 1131-1137. doi: 10.13203/j.whugis20180043
    [2] 唐露露, 张立华, 贾帅东, 李彬彬.  利用缓冲区动态生长模型进行岛屿自动选取 . 武汉大学学报 ● 信息科学版, 2019, 44(12): 1874-1882. doi: 10.13203/j.whugis20180156
    [3] 杨学习, 徐枫, 石岩, 邓敏.  一种基于场论的空间异常探测方法 . 武汉大学学报 ● 信息科学版, 2018, 43(3): 364-371. doi: 10.13203/j.whugis20150237
    [4] 朱杰, 孙毅中, 陈律余, 周卫, 孟耀伟.  顾及属性空间分布不均的空间聚类方法——以城市商业中心的提取为例 . 武汉大学学报 ● 信息科学版, 2017, 42(12): 1696-1702. doi: 10.13203/j.whugis20150590
    [5] 邹进贵, 陈艳华, 丁鸽, 宣伟.  利用DMSP/OLS灯光影像提取城镇建成区的聚类阈值法 . 武汉大学学报 ● 信息科学版, 2016, 41(2): 196-201. doi: 10.13203/j.whugis20140079
    [6] 龚健雅, 耿晶, 吴华意.  地理空间知识服务概论 . 武汉大学学报 ● 信息科学版, 2014, 39(8): 883-890. doi: 10.13203/j.whugis20140119
    [7] 石岩, 刘启亮, 邓敏, 林雪梅.  融合图论与密度思想的混合空间聚类方法 . 武汉大学学报 ● 信息科学版, 2012, 37(11): 1276-1280.
    [8] 石岩, 刘启亮, 邓敏, 王佳璆.  一种顾及障碍约束的空间聚类方法 . 武汉大学学报 ● 信息科学版, 2012, 37(1): 96-100.
    [9] 孙卡, 吴冲龙, 刘刚, 何珍文.  海量三维地质空间数据的自适应预调度方法 . 武汉大学学报 ● 信息科学版, 2011, 36(2): 140-143.
    [10] 邓敏, 彭东亮, 刘启亮, 石岩.  一种基于场论的层次空间聚类算法 . 武汉大学学报 ● 信息科学版, 2011, 36(7): 847-852.
    [11] 刘启亮, 邓敏, 彭东亮, 王佳璆.  基于力学思想的空间聚类有效性评价 . 武汉大学学报 ● 信息科学版, 2011, 36(8): 982-986.
    [12] 焦利民, 洪晓峰, 刘耀林.  空间和属性双重约束下的自组织空间聚类研究 . 武汉大学学报 ● 信息科学版, 2011, 36(7): 862-866.
    [13] 刘启亮, 李光强, 邓敏.  一种基于局部分布的空间聚类算法 . 武汉大学学报 ● 信息科学版, 2010, 35(3): 373-377.
    [14] 邓敏, 刘启亮, 李光强, 肖奇.  一种基于似最小生成树的空间聚类算法 . 武汉大学学报 ● 信息科学版, 2010, 35(11): 1360-1364.
    [15] 焦利民, 刘耀林, 刘艳芳.  区域城镇基准地价水平的空间自相关格局分析 . 武汉大学学报 ● 信息科学版, 2009, 34(7): 873-877.
    [16] 杨春成, 何列松, 谢鹏, 周校东.  顾及距离与形状相似性的面状地理实体聚类 . 武汉大学学报 ● 信息科学版, 2009, 34(3): 335-338.
    [17] 焦利民, 刘耀林, 任周桥.  基于自组织神经网络的空间点群聚类及其应用分析 . 武汉大学学报 ● 信息科学版, 2008, 33(2): 168-171.
    [18] 梅新, 崔伟宏, 高飞, 刘俊怡.  基于空间聚类的物流配送决策研究 . 武汉大学学报 ● 信息科学版, 2008, 33(4): 371-374.
    [19] 王海军, 张德礼.  基于空间聚类的城镇土地定级方法研究 . 武汉大学学报 ● 信息科学版, 2006, 31(7): 628-631.
    [20] 毋河海.  关于GIS缓冲区的建立问题 . 武汉大学学报 ● 信息科学版, 1997, 22(4): 358-365.
  • 加载中
图(9) / 表(1)
计量
  • 文章访问数:  896
  • HTML全文浏览量:  81
  • PDF下载量:  312
  • 被引次数: 0
出版历程
  • 收稿日期:  2018-09-13
  • 刊出日期:  2019-01-05

利用模糊密度聚类和双向缓冲区自动识别热点区

doi: 10.13203/j.whugis20180358
    基金项目:

    中国工程院重点咨询研究项目 2017-XZ-13

    作者简介:

    崔晓杰, 博士生, 主要研究方向为地图模式识别与制图综合。cuixiaojie1990@qq.com

    通讯作者: 巩现勇, 讲师, 博士。gongxygis@whu.edu.cn
  • 中图分类号: P208

摘要: 通过数据挖掘手段获取聚集模式(即热点)等地理空间知识是地理信息智能化服务的基础和前提。点群聚集模式的提取本质上是热点及其边界(热点区)的探测。首先分析了使用空间聚类提取热点并以凸壳表达热点轮廓的不足,进而提出一种利用模糊密度聚类和双向缓冲区的热点区自动识别方法。该方法借鉴模糊集理论,通过计算对象之间的模糊隶属度改进基于密度的聚类算法,用以提取点群的聚集模式;在此基础上,将模糊隶属度作为对象间的影响程度,采用正负缓冲区建立热点边界。以郑州市城区的科研机构点为例进行实验,结果表明,提出的方法既能有效区分空间点的类型(噪声点与非噪声点),又能生成连续平滑的热点边界,总体效果优于对比方法。

English Abstract

崔晓杰, 王家耀, 巩现勇, 赵耀. 利用模糊密度聚类和双向缓冲区自动识别热点区[J]. 武汉大学学报 ● 信息科学版, 2019, 44(1): 84-91. doi: 10.13203/j.whugis20180358
引用本文: 崔晓杰, 王家耀, 巩现勇, 赵耀. 利用模糊密度聚类和双向缓冲区自动识别热点区[J]. 武汉大学学报 ● 信息科学版, 2019, 44(1): 84-91. doi: 10.13203/j.whugis20180358
CUI Xiaojie, WANG Jiayao, GONG Xianyong, ZHAO Yao. Hotspot Area Recognition by Using Fuzzy Density Clustering and Bidirectional Buffer[J]. Geomatics and Information Science of Wuhan University, 2019, 44(1): 84-91. doi: 10.13203/j.whugis20180358
Citation: CUI Xiaojie, WANG Jiayao, GONG Xianyong, ZHAO Yao. Hotspot Area Recognition by Using Fuzzy Density Clustering and Bidirectional Buffer[J]. Geomatics and Information Science of Wuhan University, 2019, 44(1): 84-91. doi: 10.13203/j.whugis20180358
  • 随着时空大数据时代的到来,“数据海量,知识难求”的问题日益突出,严重制约了测绘地理信息科技从数字化向智能化转型升级[1-3]。数据挖掘是获取地理空间知识的重要手段,而以空间知识获取为基础的空间知识建模和推理是实现地理信息智能化服务的关键[3-5]。空间分布模式是一种典型的空间知识,按照要素的几何特征可分为点群模式、线群模式和面群模式[6]。地理空间中许多目标以点群形式存在,如高程点、水深点及兴趣点。当空间中的点群呈聚集分布时,可称为点群聚集模式(即热点)[7]。点群边界是用于感知和描述地理现象的空间知识[8-11],能够增强地理空间数据的可用性。提取热点及其边界的过程称为热点区识别,在城市结构与功能分析、社会经济现象时空特征分析、安全事件高发区提取等领域有着广泛的应用[12-15]

    热点区识别的方法大致可分为三类。第一类根据研究区域划分单元(如均匀格网、Voronoi多边形)的指标聚集特性提取热点,热点单元的边界即为热点区,但识别结果会受到单元大小和形状的影响[14, 16-17];第二类首先计算对象的密度值,通过插值方法形成连续表面,再利用等值线生成平滑的边界,该类方法难点在于密度估计带宽和插值方法的选择[13, 18-19];第三类首先利用空间聚类提取聚集模式,然后通过凸壳法、chi-shape或Delaunay三角网等方法构建类边界,该类方法直观简洁,且识别结果不受区域单元的限制[20-23]。在现有的空间聚类算法[24-26]中,基于密度的聚类算法(density-based spatial clustering of applications with noise,DBSCAN)[27]具有计算效率高、能够识别出任意形状的点群、不需要预先指定聚类个数等优点[25-26], 因此,DBSCAN+轮廓法[20-22]在第三类热点区识别方法中较为常见。但进一步研究发现,该方法存在以下问题:① DBSCAN的聚类结果中存在假噪声和小类,导致热点模式零散、破碎;②严格的轮廓边界线连接机械、刻板,且忽略了边界点的影响范围。

    为了克服以上不足,本文提出一种基于模糊隶属度的热点区自动识别方法。首先通过计算模糊隶属度改进DBSCAN算法,用于提取点群的热点模式;然后以隶属度作为对象的影响程度,利用正负缓冲区方法生成热点边界,最终实现点群热点区的自动识别。

    • DBSCAN方法的原理是基于对象分布密度的不同来发现类,即要求聚类空间中的一定区域(E邻域)内所包含对象的数目不小于某一给定阈值(K)。该方法以二进制的“0-1”隶属度判断一个对象是否属于一个类,这样会导致假噪声。如图 1(a)所示,q1q2与核点p的距离相似,但二者距离稍小于Eq1被认为是类内点,而距离稍大于Eq2被划分为噪声,即假噪声。此外,该方法忽略了一个对象可能以不同的隶属度隶属于多个类的事实,从而产生小类(非核点数小于MinPts的类)。如图 1(b)所示,当MinPts=6时,若q3首先被划分到p1的类中,则以p2为核心的类即为小类。

      图  1  DBSCAN方法存在的问题

      Figure 1.  Problems in DBSCAN Method

      本文借鉴模糊集理论中以隶属度代替“非此即彼”硬划分的思想[28],建立空间点之间的隶属度函数[29],并给出相应的模糊密度聚类的相关概念和聚类原理。

    • 定义1  隶属度:对象q隶属于对象p的程度。在DBSCAN算法中,隶属度Mc(p, q)可形式化表达为:

      $$ {M_c}\left( {p, q} \right) = \left\{ \begin{array}{l} 1, d\left( {p, q} \right) < E\\ 0, 其他 \end{array} \right. $$ (1)

      式中,d(p, q)为对象pq之间的欧氏距离。在模糊隶属关系中,将对象间的模糊隶属度定义为:

      $$ {M_f}\left( {p, q} \right) = \exp \left[ { - {{\left( {\frac{{d\left( {p, q} \right)}}{E}} \right)}^2}} \right] $$ (2)

      模糊隶属度的值域是(0, 1],距离越大,Mf值越小,该特征符合地理学第一定律及集聚模式的认知规律。

      图 2描述了两种类型的隶属关系。从图 2(a)中可以看出,DBSCAN算法中pq的隶属关系是二进制的;距离不同(但小于Eps)的两个点对p的隶属度都是1,且对p的密度贡献相同。图 2(b)显示改进后的模糊隶属度会随着距离的增大而连续减小,因而距离不同的两个点对p的密度贡献不同。

      图  2  两种隶属度函数

      Figure 2.  Two Kinds of Membership Degree Functions

      定义2  模糊集合基数:pE邻域内所有点{q1, q2qm}对p的模糊隶属度的总和, 即

      $$ {C_f}\left( p \right) = \sum\limits_{i = 1}^m {{M_f}(p, {q_i})} $$ (3)

      式中,Cf(p)表征p点所在区域的密集程度,值越大,则p点附近越密集。

      定义3  核心对象:如果给定对象p满足Cf(p)≥ε1,则称p为核心对象,简称核。

      定义4  直接密度可达:如果p为核心对象,且对象q满足Mf(p, q)>ε2,那么对象q从对象p直接密度可达。

      此外,密度可达、密度相连的定义与DBSCAN算法相同。

    • 模糊密度聚类即是找到密度相连的对象的最大集合。考虑到类边界点可能属于多个类,在聚类过程中注意以下两点:①在遍历要素时,需要定义两个访问标记数组:外层数组标记核点的访问情况,全局有效;内层数组标记非核点的访问情况,类内有效。区分访问标记的目的是保证非核点在生成每个类时都可被访问,以避免小类的产生。②在聚类结果的后处理中,对一个点同时属于多个类的情况可采用以下策略:一是分离思想,将其并入隶属度较高的类;二是融合思想,将同属的多个类合并成为一个类。本文的目的是为了生成聚集模式的范围,当一个点同属于多个类时,表明这些类存在空间联系,可将多个类合并,以得到一个最大连通区域。

      根据基本概念和DBSCAN聚类原理,本文将模糊密度聚类方法分为以下5个步骤:

      1) 输入参数E,计算对象之间的模糊隶属度Mf

      2) 计算模糊集合基数Cf,在给定的ε1下寻找核点并标记;

      3) 以核心对象为起点,在给定的ε2下寻找密度相连的最大集合并记录点号;

      4) 重复步骤3),直到所有核点都被访问,未归入类的点记为噪声;

      5) 检查类间是否存在共同点,若存在,则合并为一个类。

    • DBSCAN方法涉及的参数EK可参照文献[27]中的k-dist方法设置,下面主要给出模糊密度聚类参数ε1ε2的推导过程。

      1) p为核点的边界条件是有K个与p相距E的点,此时模糊集合基数为:

      $$ {C_{f}}\left( p \right) = {\rm{exp}}[ - {\left( {E/E} \right)^2}] \times K = K/{\rm{e}} $$

      式中,e是自然对数的底(下同)。据此可以得出ε1的计算式为:

      $$ {\varepsilon _1} = K/{\rm{e}} $$ (4)

      2) 点q为核p的邻居的边界条件是pq的距离等于E, 此时有:

      $$ {M_f}\left( {p, q} \right) = {\rm{exp}}[ - {\left( {E/E} \right)^2}] = 1/{\rm{e}} $$

      ε2的计算式为:

      $$ {\varepsilon _2} = \lambda \times \frac{1}{{\rm{e}}} $$ (5)

      式中,λ是调节系数,取值范围是[0, 1], 当λ=0时,点集中的所有点都是核p的邻居;当λ=1时,邻居判别条件为Mf(p, q)≥1/e,与DBSCAN的邻居判别方法是等价的。可以看出参数ε2与核p邻居集的大小成负相关。在无特殊要求时,本文方法默认λ=1。

    • 热点区用于描述聚集模式的范围,在空间认知上具有模糊性,因而热点边界的确定实质上是一个模糊区域构建的问题。模糊隶属度不仅表达了空间点之间的隶属程度,还体现了点对周围区域的影响程度。基于此,本文在某一确定的影响度β下计算影响半径r

      $$ r = E \times \sqrt { - \ln \beta } $$ (6)

      并将其作为热点边界生成的依据,然后利用缓冲区能够连续、定量表达对象轮廓范围的优势[30],提出一种正负缓冲区的热点边界自动生成方法。该方法的主要过程如图 3所示。

      图  3  正负缓冲区法生成边界的示意图

      Figure 3.  Results of Simulated Data Schematic Diagram of Boundary Generation

      具体步骤如下:

      1) 建立点的正向缓冲区,且按类合并,生成每个类的初始边界多边形。由模糊密度聚类原理可知,沿着类向外扩展延伸的方向,点与点之间的最大距离为E。根据点p的属性(噪声/非噪声)设置正向缓冲区半径rp

      $$ {r_p} = \left\{ \begin{array}{l} \alpha \times E, p为非噪声\\ 0, p为噪声 \end{array} \right. $$ (7)

      式中,α为比例系数, 该参数通过调节缓冲区半径得到不同宽度的正向缓冲区, 参数值越大,正向缓冲区覆盖范围越大,类内出现缝隙的可能性越小;反之,正向缓冲区的覆盖范围越小,类内出现缝隙的可能性越大,但边界形状更加逼近点群实际形状。根据上述规律和实验分析,规定α在[0.50, 1.00]内取值,其对应的影响度为0.78≥β≥0.37。

      2) 建立初始边界的负向缓冲区。对于类边界点而言,认为影响度在0.90以上的区域可作为对象的影响域,即边界点影响域半径ri=0.32E。为此,这里采用负向缓冲区的方法,以初始边界多边形为基准,向内侧做一层宽度为rn=rp-ri的缓冲区。

      3) 将初始边界多边形与负向缓冲区作几何求差运算,得到的多边形即为热点区。

      上述方法的边界生成效果只与α有关。随着α的减小,热点边界轮廓更加逼近点群的形状特征,但热点区内部出现的缝隙也会增多,热点区破碎化严重。为平衡二者之间的关系并生成较为理想的边界,这里选取均值0.75作为最终的热点边界生成调节系数。

      以模拟数据为例比较DBSCAN+凸壳法和本文方法的识别效果,结果如图 4所示(E=100,K=5)。可以看出:①模糊密度聚类方法的识别结果能够克服假噪声(如A处)和小类(如B处)的问题,提取符合视觉邻近效果的类(如C处);②与凸壳法相比,双向缓冲区法生成的边界连续光滑(如D处与C处),边界形状能够合理表达热点区的形态。

      图  4  模拟数据的实验结果

      Figure 4.  Results of Simulated Data

    • 本文以郑州市主城区(北至大河路、南至南四环、西至郑州绕城高速、东至京珠高速)的科研机构的兴趣点(point of interest,POI)为实验数据进行热点区识别。在图 5所示的研究区内共有574个科研机构点,主要包括研究中心、研究所、研究院、设计院、实验室及产学研基地等。由于显示比例的限制,图 6中符号可能产生重叠,如图 5A处与B处。

      图  5  实验数据

      Figure 5.  Experimental Data

      图  6  科研机构POI的6-dist图(k=6)

      Figure 6.  6-dist Chart of Scientific POIs(k=6)

      计算参数k=ln(574)≈6,绘制如图 6所示的k-dist图。可以看出,距离曲线在(418,1 000)和(553,3 000)处有明显的斜率变化,且位于0~1 000范围内的点数为418,位于1 000~3 000范围内的点数为553-418=135,远小于第一个区间的点数,因此这里将参数设置为E=1 000,K=6。

    • 图 7为本文方法识别的郑州市科研机构热点区。可以看出,本文方法一共识别出14个热点区,包括2个大型热点区、2个中型热点区和10个小型热点区;热点区界限明显、范围清晰,与热点的包含关系明确。

      图  7  本文方法识别结果

      Figure 7.  Results Recognized by This Method

      郑州市科研机构在空间上具有明显的聚集特征,呈现多中心的分布格局,主要包括3个密集区:①以金水区为主、附带管城区的第一大热点区,该区域依托郑州大学(北校区)、河南农业大学、河南省科学院、河南省发改委等单位,联合管城区的中医药研究单位,借助政治文化中心的区位优势,形成中心饱满并向四周辐射的发展态势;②二七区,该区域依托郑州大学(南校区)和河南工业大学(嵩山路校区)等单位,利用较为深厚的教育资源和人才优势,发展成为一个“C型”热点区;③高新技术开发区,该区域依托郑州大学(新校区)和河南工业大学(莲花街校区)等,通过政策激励和扶持大力发展高新技术产业,由2个中型和1个小型热点区形成紧密包裹的形势。以上分析表明,郑州市的科研水平发展目前还存在明显的空间差异,科研机构及活动布局的区域性较强。

    • 设置参数E=1 000,K=6。文献[20]的DBSCAN+凸壳法的识别结果如图 8所示,该方法共识别出9个热点区。与本文方法相比:①大、中型热点区识别结果大致相同,但遗漏了4个小型热点区(如A处);②大型热点区忽略了凹陷边界(如B处),边界范围被夸大;③小型热点区的边界视觉效果极差(如C处),若不借助点符号加以区别,几乎不能看出是否构成热点区。

      图  8  DBSCAN+凸壳法识别结果

      Figure 8.  Results Recognized by DBSCAN-Convex Hull Method

      文献[18]的核密度+等值线法应用的关键在于带宽h的设置,需要考虑的因素有研究尺度、数据聚集程度以及空间点的性质等[31]。在某一确定尺度下的空间点数据,核密度计算的结果主要与数据聚集程度有关。因此,本文依据k-dist方法,将带宽设置为1 000。以大于均值两倍标准差的密度值生成等值线,得到如图 9所示结果。

      图  9  核密度+等值线法识别结果

      Figure 9.  Results Recognized by Kernel Density-Contour Method

      该方法一共识别出11个热点区,与文献[20]的方法及本文方法识别的大中型热点区范围类似。但进一步比较发现,核密度+等值线法生成的边界基本都是团块状,忽略了空间聚集模式向外延伸的细节(如A处),且边界范围与空间点的包含关系模糊(如B处);而本文方法通过对空间点的分类而有效去除了噪声点,边界范围清晰,视觉效果较优。3种方法的结果对比见表 1

      表 1  3种方法比较说明

      Table 1.  Comparison of Three Methods

      方法 热点区个数 是否剔除噪声点 边界是否光滑 边界形状 边界与点的包含关系
      本文方法 14 任意 清晰
      DBSCAN+凸壳法 9 凸多边形 清晰
      核密度+等值线法 11 任意 模糊
    • 热点区识别是空间数据挖掘的重要内容之一,能够为智能化决策提供知识服务。本文提出一种基于模糊隶属度的热点区自动识别方法,使用模糊隶属度代替“0-1”二进制隶属关系,解决了DBSCAN方法提取热点的假噪声和小类问题;通过建立正负缓冲区生成热点边界,改善了凸壳轮廓夸大、刻板的不足。应用郑州市科研机构POI数据进行实验分析,结果表明本文方法能够结合空间聚类和连续边界的优势,既有效地区分了空间点的类型(噪声点与非噪声点),又顾及了边界点的影响范围,生成的边界连续平滑,能够合理表达点状要素与现象的空间分布格局。

参考文献 (31)

目录

    /

    返回文章
    返回