快速检索        
  武汉大学学报·信息科学版  2019, Vol. 44 Issue (5): 758-764

文章信息

邢汉发, 孟媛, 侯东阳, 徐海滨, 刘金然
XING Hanfa, MENG Yuan, HOU Dongyang, XU Haibin, LIU Jinran
一种应用兴趣点数据进行地表覆盖分类的方法
A Land-Cover Classification Method Using Point of Interest
武汉大学学报·信息科学版, 2019, 44(5): 758-764
Geomatics and Information Science of Wuhan University, 2019, 44(5): 758-764
http://dx.doi.org/10.13203/j.whugis20170046

文章历史

收稿日期: 2018-04-10
一种应用兴趣点数据进行地表覆盖分类的方法
邢汉发1,2 , 孟媛1 , 侯东阳1 , 徐海滨1 , 刘金然1     
1. 山东师范大学地理与环境学院, 山东 济南, 250300;
2. 华南师范大学地理科学学院, 广东 广州, 510631
摘要:针对传统基于遥感影像的地表覆盖分类方法普遍存在的生产周期长、成本高、自动化程度低等问题,提出了一种完全利用兴趣点(point of interest,POI)数据进行地表覆盖自动化分类的方法。首先应用潜在狄利克雷分布主题计算模型,从POI数据的文本信息中挖掘出与地表覆盖类型相关的主题类型和分布概率;然后基于POI文本的主题分布,运用支持向量机分类算法构建地表覆盖分类模型;最后以遥感影像地表覆盖分类结果为依据,采用随机抽样的方式对所提方法进行验证。结果表明,该方法能够较好地区分人造地表和非人造地表,且整体分类精度超过80%,可作为传统遥感影像分类的辅助手段,满足地表覆盖快速分类的制图需求。
关键词地表覆盖分类    兴趣点    潜在狄利克雷分布主题模型    支持向量机    
A Land-Cover Classification Method Using Point of Interest
XING Hanfa1,2 , MENG Yuan1 , HOU Dongyang1 , XU Haibin1 , LIU Jinran1     
1. College of Geography and Environment, Shandong Normal University, Jinan 250300, China;
2. School of Geography, South China Normal University, Guangzhou 510631, China
Abstract: Traditional land cover classification process is very complicated, timeconsuming and labor-intensive, which requires huge amount of imagery data and involves many people. Recently, crowd-sourcing data have been used for land cover classification with lower costs, but they are still time-consuming due to the process of interpreting data. We examine the potential of textual information in point of interest (POI) as a new reference source. Firstly, POI textual data is analyzed to calculate the word distributions and topic distributions of POI using latent Dirichlet allocation (LDA) topic model. Secondly, support vector machine (SVM) algorithm is applied with topic distributions of POI to build a land cover classification model. Finally, we evaluate the land cover classification result by taking a random sample of remote sensing images. In the experiments, 1.9 million POIs from Weibo, Baidu and Gaode are used to test the proposed method, and result shows that a classification accuracy of over 80% is achieved.
Key words: land-cover classification    point of interest    LDA topic model    SVM    

地表覆盖及变化数据是环境变化研究、地理国情监测和可持续发展规划的重要科学数据,其分类与制图一直是国内外研究的热点[1]。目前主要采用遥感影像分类制图方式,由专业人员通过分析遥感影像中的光谱和纹理信息,结合专家先验知识和各种参考资料,提取地表覆盖类型和分布信息[2]。该方法受遥感影像获取和分类技术的影响,存在生产周期长、成本高、自动化程度低等问题,难以满足地表覆盖产品快速制图的需求。为减少制图成本,满足用户对地表覆盖产品日益变化的应用需求,需要发展一种新的地表覆盖分类方法。

近年来,随着地理时空大数据的应用与发展,很多学者已经尝试将带地理标签的图片、轨迹、兴趣点(point of interest,POI)等众源地理数据应用到地表覆盖和土地利用的分类中[3-9]。如文献[3]根据Flickr数据的图像特征,利用贝叶斯方法研制了小范围的地表覆盖分类图;文献[4]应用Geo-Wiki中的地理标记信息,通过志愿者对其所在地区的地表覆盖类型进行人工判断,实现了中等分辨率地表覆盖的分类与制图。上述两种方法需要人工解译大量的样本图片,耗时费力。文献[5]通过腾讯QQ用户的时空轨迹构建了人类时空活动指数,分析了人类活动与土地利用分类的关系,该方法的研究视角新颖,但腾讯QQ用户的轨迹数据并不公开,获取相对困难;文献[6]结合Landsat影像的植被指数特征和POI数据的类别特征,提出了城市区域土地利用的分类方法,由该方法成功得到了土地利用分类图,但其同样受限于遥感影像的获取技术。

事实上,现有方法大多聚焦于众源地理数据的位置、图像特征、人类活动聚集特征和社会经济特征等方面,忽略了其自身携带的文本语义信息,如POI文本中“餐馆”“高尔夫球场”“海滨浴场”的语义分别对应了人造地表、草地和水体等地表覆盖类别。因此,本文提出了一种利用POI文本语义的地表覆盖分类方法。

1 理论与方法

本文的研究思路如图 1所示。首先以POI数据集中的文本信息和位置信息为分类依据,构建POI文档,并应用潜在狄利克雷分布(latent Dirichlet allocation,LDA)主题模型[10],从POI文档中计算与地表覆盖类型相关的POI文本词语分布与主题分布;然后应用支持向量机(support vector machine,SVM)分类算法[11]将文档中POI文本的主题分布作为输入数据,并依据部分标注的地表覆盖类型构建地表覆盖分类模型,实现地表覆盖的自动分类;最后以遥感影像地表覆盖分类结果为依据,对本文方法进行验证。

图 1 基于POI数据的地表覆盖分类研究思路 Fig. 1 Land Cover Classification UsingTextual Analysis of POI
1.1 基于LDA的POI文本主题计算 1.1.1 顾及POI文本的LDA主题模型构建

为了将POI文本按照相似语义进行主题归类,并计算出归类后的POI文本的主题分布,本文选用LDA模型对POI的文本主题进行计算[12-13]。如图 2所示,LDA模型以文档为输入变量,并假定文档是由一定分布概率下的主题Z与词语W决定的,其中,词语W由主题Z构成;θϕ决定了文档中主题Z的分布概率和主题Z中词语W的分布概率;超参数αβ为模型输入参数,影响了主题Z的分布概率θ和词语W的分布概率ϕM为文档的数量;N为每篇文档中词语W的个数;K是主题Z的数量,为模型输入参数V

图 2 LDA主题模型 Fig. 2 LDA Topic Model

将POI的文本信息当做单词W,相似语义的POI文本看作是一个主题Z,应用LDA模型对POI文本语义进行归类并计算其主题分布。首先,模型需要构建用于模型输入的文档d。本文考虑到距离相近的POI可能包含相同或相似的文本语义,因此把研究区划分为相同分辨率的栅格单元,并将所有落入同一个栅格单元的POI文本词语W作为一个文档。然后,将文档应用于LDA主题模型,计算文档中主题Z的分布概率θ和每个主题中POI文本词语W的分布概率ϕ,其计算公式为:

$\theta = \frac{{n_d^{(K)} + {\alpha _Z}}}{{\sum\limits_{z = 1}^K {n_d^{(K)}} + {\alpha _Z}}} $ (1)
$\phi = \frac{{n_K^{(W)} + {\beta _W}}}{{\sum\limits_{W = 1}^V {n_K^{(W)}} + {\beta _W}}} $ (2)

式中,nd(K)为主题Z在文档d中出现的次数;nK(W)为词语W在主题Z中出现的次数;V为词语W的数量。

1.1.2 LDA主题模型的参数调整

LDA主题模型中的超参数αβ与主题数K决定了文档中主题Z的分布概率θ和每个主题中POI文本词语W的分布概率ϕ。其中,αβ的取值可根据现有模型的优化参数确定,因此本文直接利用文献[14]中的优化参数,取值具体为α=50/Kβ=0.1,而主题数K需要依据POI的文本语义来定。为了确定适用于地表覆盖分类的主题数K,本文引入衡量文本混合度的指标(perplexity)来计算不同主题数K下主题Z的文本语义归类情况。perplexity的计算公式为:

${\rm{perplexity}}(d) = \exp \left[ { - \frac{{\sum\limits_{d = 1}^M {\lg } p\left( {{W_d}} \right)}}{{\sum\limits_{d = 1}^M {{N_d}} }}} \right] $ (3)

式中,p(Wd)为词语Wd属于文档d的概率;Nd则为文档d中词语W的数量的大小; perplexity值表示文档属于某个主题Z的不确定性,perplexity的值越小,表示计算结果中主题Z的可信度越高。

1.1.3 POI文本主题计算

在确定模型参数αβK后,需要计算得到文档中主题Z的分布概率矩阵P,以及每个主题中POI文本词语W的分布概率矩阵R。其矩阵构建如下:

$\mathit{\boldsymbol{P}} = \begin{array}{*{20}{c}} {\left[ {\begin{array}{*{20}{c}} {{\theta _{ii}}}&{{\theta _{ij}}}&{{\theta _{ik}}}&{{\theta _{il}}}\\ {{\theta _{ji}}}&{{\theta _{jj}}}&{{\theta _{jk}}}&{{\theta _{jl}}}\\ {{\theta _{ki}}}&{{\theta _{kj}}}&{{\theta _{kk}}}&{{\theta _{kl}}}\\ {{\theta _{li}}}&{{\theta _{lj}}}&{{\theta _{lk}}}&{{\theta _{ll}}} \end{array}} \right]} \end{array} $ (4)
$\mathit{\boldsymbol{R}} = \begin{array}{*{20}{c}} {\left[ {\begin{array}{*{20}{c}} {{\phi _{ii}}}&{{\phi _{ij}}}&{{\phi _{ik}}}&{{\phi _{il}}}\\ {{\phi _{ji}}}&{{\phi _{jj}}}&{{\phi _{jk}}}&{{\phi _{jl}}}\\ {{\phi _{ki}}}&{{\phi _{kj}}}&{{\phi _{kk}}}&{{\phi _{kl}}}\\ {{\phi _{li}}}&{{\phi _{lj}}}&{{\phi _{lk}}}&{{\phi _{ll}}} \end{array}} \right]} \end{array} $ (5)

式中,矩阵P的行号ijkl表示第ijkl个主题,列号表示第ijkl个文档;矩阵R的行号表示POI类型,列号表示主题。如θij表示第j个文档下第i个主题的分布概率,ϕjk表示第k个主题下第j个POI类型的分布概率。POI文本词语W的分布概率矩阵R反映了主题归类的可信度,文档中主题Z的分布概率矩阵P反映了地表覆盖类型的分布,用于地表覆盖自动分类。

1.2 基于POI文本主题的地表覆盖分类

由于主题Z包含的POI文本词语W与地表覆盖类型具有语义的关联,且文档中主题Z的分布反映了地表覆盖类型的分布,本文依据主题Z的分布概率矩阵P,应用SVM算法来构建地表覆盖分类模型。

SVM算法中最重要的因素为核函数的选择与参数gamma、cost的取值。本文选用sigmoid作为核函数,其计算公式为:

$S\left( x \right) = \frac{1}{{1 + {{\rm{e}}^{ - x}}}} $ (6)

并应用网格搜索算法,选取gamma和cost的最优值。网格搜索算法通过遍历所有文档,采用交叉验证的方式计算不同参数下模型的分类精度,得到地表覆盖分类精度最高时参数的取值。

2 地表覆盖实验与分析 2.1 实验数据

本文以中国北京市为研究区域,实验数据集选用新浪微博、百度、高德地图的POI数据。POI数据是通过官方网站提供的应用程序编程接口(API)采集,其中,新浪微博的POI时间为2015年,百度、高德地图的POI则为2016年。如表 1所示,除了位置信息外,3种POI共有的文本属性为类型与地址。考虑到POI地址中的文本信息多为道路名称,无法反映地表覆盖信息,本文将POI类型作为用于主题分析的文本数据。去除带有未知分类等无法判断地表覆盖类型的POI后,利用POI的位置信息和文本信息,将共计928类、1 903 658个POI构建为11 916个用于主题模型输入的文档。

表 1 POI数据源及其部分属性 Tab. 1 POI Datasets and Attributes
数据源 数量/个 采集时间 属性
新浪微博 141 746 2015年 POI ID,城市类型编码,签到数,类型编码,类型,照片数,(XY)
百度 239 352 2016年 ID,名称,(XY),POI类型,地址
高德地图 1 522 560 2016年 ID,标签,名称,类型,类型编码,地址,(XY),邮政编码

将POI数据与遥感影像叠加后发现,大部分POI落于人造地表中,而少量的数据落入森林、耕地、水体等非人造地表。如图 3所示,图 3(a)区域为城市,POI分布密集,文本语义中大多为商业、住宅等反映人造地表类型的主题;图 3(b)区域为森林,POI分布稀疏,文本语义多与风景区、休闲娱乐相关;图 3(c)区域为散落分布的耕地与村庄,POI分布相对较少,POI类型主要反映了乡镇、村庄等主题;图 3(d)区域靠近水体,POI多沿着水体集中分布,文本与水域和休闲度假相关。由于反映人造地表的POI相对较多,而反映森林、耕地与水体的POI数据较少,且POI文本语义在人造地表与非人造地表之间有明显区分,因此,本文将地表覆盖类型分为人造地表与非人造地表。

图 3 部分区域POI数据集分布 Fig. 3 POI Dataset Distribution in Parts of Areas
2.2 POI文本主题计算

考虑到现有地表覆盖数据的分辨率多为1 km,因此,本文以1 000 m×1 000 m分辨率的栅格单元为例,构建用于主题模型输入的文档d。采用perplexity指标对POI文本主题分布进行计算,旨在确定POI文本的主题数K。首先,将M个文档划分为80%的实验数据和20%的测试数据,利用80%的实验数据分别计算K∈(2,500)时文本的主题分布;继而,在现有主题分布的基础上,计算20%的测试数据下的perplexity值。

实验结果如图 4所示,perplexity值呈一条先急剧下降、后趋于平稳的曲线,随着主题数K的增加,perplexity值不断减小,且减小速度不断下降。当K=2时,perplexity值接近50 000,并在K增加至60时骤降为约10 000;当K>60时,perplexity值的下降速度明显变缓,并趋于一条平稳的直线,说明当主题数K>60并继续增加时,POI文本主题的可信度并没有明显升高。考虑到K的取值过大使得POI文档的主题数过多,导致地表覆盖分类特征冗余,故选取主题数K值为60。

图 4 不同主题数K下的perplexity值 Fig. 4 Perplexity Values with Different Topics

为验证K=60时POI主题归类的可信度,选取了60个主题中部分主题的POI类型分布。如表 2所示,同一个主题中分布概率较高的POI往往具有相同或相似的类型。如主题3中分布概率较高的POI类型为“住宅区”“房地产”“住宅小区”等,都反映了居民住宅相关主题;主题14中“休闲场所”“农家院”“度假村”等POI类型反映了户外休闲娱乐相关主题;主题46中“采摘园”“垂钓园”“其他农林牧渔基地”等POI类型反映了农林牧渔相关主题。

表 2 POI类型部分主题分布 Tab. 2 Part of Topic Distributions of POI Types
主题3 主题14 主题46
POI类型 分布概率 POI类型 分布概率 POI类型 分布概率
住宅区 0.467 172 休闲场所 0.558 826 采摘园 0.170 714
房地产 0.254 096 农家院 0.100 558 其他农林牧渔基地 0.153 525
住宅小区 0.105 637 度假村 0.057 300 0.138 904
临街院门 0.090 700 体育休闲服务 0.024 530 农林园艺 0.044 958
洗衣店 0.017 361 度假疗养场所 0.011 654 垂钓园 0.033 894
商务住宅相关 0.005 750 水上活动中心 0.003 841 河流 0.023 324
2.3 地表覆盖分类

选取样本构建地表覆盖分类模型时,考虑到地表覆盖中混合地类的存在,分类样本的选择应尽量避免包含多种地表覆盖类型的POI文档。本文选取了1 064个文档,其中700个为训练样本,364个为测试样本,并人工标注每个文档的地表覆盖类型。

应用本文方法得到的地表覆盖分类模型的分类精度如表 3所示。在700个训练样本中,353个非人造地表与283个人造地表被正确分类,62个人造地表被分为非人造地表,2个非人造地表被分为人造地表,分类精度为90.86%。在364个测试样本中,分别有204个非人造地表和120个人造地表被正确分类,38个人造地表被分为非人造地表,2个非人造地表被分为人造地表,分类精度为89.01%。

表 3 地表覆盖分类模型分类精度 Tab. 3 Classification Accuracy of Land Cover Classification Model
地表覆盖 训练样本 合计 测试样本 合计
非人造地表 人造地表 非人造地表 人造地表
非人造地表 353 62 415 204 38 242
人造地表 2 283 285 2 120 122
合计 355 345 700 206 158 364
精度/% 90.86 89.01

依据本文提出的地表覆盖分类模型,对11 916个POI文档进行分类,得到的部分地区分类结果如图 5所示。其中,图 5(a)中散落在非人造地表中的人造地表图斑对应了图 5(d)遥感影像中被耕地包围的城镇地区,分类结果表明该模型能够识别非人造地表中的人造地表图斑;图 5(b)为稀疏的非人造地表对应了图 5(e)遥感影像中山地地区的森林,表明该模型在POI数据较少时仍能对非人造地表进行分类;图 5(c)为大面积人造地表与少数散落的非人造地表图斑对应了图 5(f)遥感影像中北京市的城市中心区,这表明分类模型能够将城市建成区分类为人造地表,同时,该区域中的水体和植被能够被分类为非人造地表。

图 5 部分区域地表覆盖分类与遥感影像对比结果 Fig. 5 Parts of the Land Cover Classification Compared with Remote Sensing Images
2.4 精度验证

为检验地表覆盖分类结果,本文选用北京市2015年遥感影像,采用随机抽样的方式对上述地表覆盖分类结果进行精度验证。为减小随机抽样造成的精度验证不准确的问题,分别随机抽取1 000、2 000、3 000、4 000个样本进行目视解译工作。验证精度结果如表 4所示。4次抽样的整体精度分别为84.20%、81.95%、82.27%与82.55%;Kappa系数分别为0.554、0.487、0.498、0.503;用户精度中,非人造地表的验证精度整体高于人造地表,但验证精度差别不大,均为80%左右;而生产者精度中,非人造地表的生产者精度明显高于人造地表,分别为94%左右和50%左右。其中,被错误分类的人造地表多靠近建成区的绿地设施,包含“公园”“公园广场”等语义信息,而目视解译中将该地表覆盖类型划分为人造地表,造成人造地表生产者精度过低。与其他地表覆盖产品的制图精度相比,如Globe Land 30的整体验证精度达到80%以上[1],而本文方法所得分类精度与其相近。

表 4 不同样本的地表覆盖分类精度验证结果 Tab. 4 Verification of Land Cover Classification with Different Samples
精度验证 1 000个样本 2 000个样本 3 000个样本 4 000个样本
非人造地表 人造地表 非人造地表 人造地表 非人造地表 人造地表 非人造地表 人造地表
用户精度/% 85.15 80.00 82.25 80.43 83.53 76.45 83.83 76.59
生产者精度/% 94.94 55.02 95.56 46.96 94.23 50.18 94.32 50.51
总体精度/% 84.20 81.95 82.27 82.55
Kappa 0.554 0.487 0.498 0.503
3 结语

本文提出了一种应用POI数据进行地表覆盖自动分类的方法,其应用LDA主题模型进行POI文本信息的主题计算,并将其作为SVM分类算法的输入变量来构建地表覆盖分类模型。实验结果表明,本文方法的地表覆盖分类总体精度在82%左右,与传统基于遥感影像的分类精度相当。但是,得益于POI数据的实时更新、便捷获取以及文本自动分类方法的成熟,本文方法的生产周期和成本明显降低,自动化程度大幅度提升,可作为传统遥感影像分类的一种辅助手段,在一定程度上能够满足地表覆盖产品快速制图的需求。

本文提出的方法仍有继续深入研究和改进之处,特别是要进一步深度挖掘众源地理数据中的文本语义信息,提高地表覆盖分类精度,以弥补分辨率较低的不足;同时,需要考虑利用其他众源地理数据,对地表覆盖中的水体、森林、耕地等非人造地表进行分类;此外,还需考虑混合地表覆盖类型对分类结果与精度的影响。

参考文献
[1]
Chen J, Chen J, Liao A, et al. Global and Cover Mapping at 30 m Resolution:A POK-Based Opera-tional Approach[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2015, 103: 7-27. DOI:10.1016/j.isprsjprs.2014.09.002
[2]
Chen Jun, Chen Jin, Liao Anping, et al. Concept Sand Key Techniques for 30 m Global Land Cover Mapping[J]. Acta Geodaetica et Cartographica Sinica, 2014, 43(6): 551-557. (陈军, 陈晋, 廖安平, 等. 全球30 m地表覆盖遥感制图的总体技术[J]. 测绘学报, 2014, 43(6): 551-557. )
[3]
Sitthi A, Nagai M, Dailey M, et al. Exploring Land Use and Land Cover of Geotagged Social-Sensing Images Using Naive Bayes Classifier[J]. Sustainability, 2016, 8(9): 921-942. DOI:10.3390/su8090921
[4]
See L, Schepaschenko D, Lesiv M, et al. Building a Hybrid Land Cover Map with Crowdsourcing and Geographically Weighted Regression[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2015, 103: 48-56. DOI:10.1016/j.isprsjprs.2014.06.016
[5]
Lu Guozhen, Chang Xiaomeng, Li Qingquan, et al. Land Use Classification Based on Massive Human-Activity Spatio-temporal Data[J]. Journal of Geo-information Science, 2015, 17(12): 1497-1505. (鲁国珍, 常晓猛, 李清泉, 等. 基于人类时空活动的城市土地利用分类研究[J]. 地球信息科学学报, 2015, 17(12): 1497-1505. )
[6]
Hu T, Yang J, Li X, et al. Mapping Urban Land Use by Using Landsat Images and Open Social Data[J]. Remote Sensing, 2016, 8(2): 151-168.
[7]
Xing H, Meng Y, Hou D, et al. Exploring Point-of-Interest Data from Social Media for Artificial Surface Validation with Decision Trees[J]. International Journal of Remote Sensing, 2017, 38(23): 6945-6969. DOI:10.1080/01431161.2017.1368101
[8]
Xing H, Meng Y, Hou D, et al. Employing Crowdsourced Geographic Information to Classify Land Cover with Spatial Clustering and Topic Model[J]. Remote Sensing, 2017, 9(6): 602-621. DOI:10.3390/rs9060602
[9]
Meng Y, Hou D, Xing H. Rapid Detection of Land Cover Changes Using Crowdsourced Geographic Information:A Case Study of Beijing, China[J]. Sustainability, 2017, 9(9): 1547-1562. DOI:10.3390/su9091547
[10]
Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
[11]
Cortes C, Vapnik V. Support-Vector Networks[J]. Machine Learning, 1995, 20(3): 273-297.
[12]
Adams B, Janowicz K. Thematic Signatures for Cleansing and Enriching Place-related Linked Data[J]. International Journal of Geographical Information Science, 2015, 29(4): 556-579.
[13]
Lansley G, Longley P A. The Geography of Twitter Topics in London[J]. Computers Environment and Urban Systems, 2016, 58: 85-96. DOI:10.1016/j.compenvurbsys.2016.04.002
[14]