文章信息
- 邢汉发, 孟媛, 侯东阳, 徐海滨, 刘金然
- XING Hanfa, MENG Yuan, HOU Dongyang, XU Haibin, LIU Jinran
- 一种应用兴趣点数据进行地表覆盖分类的方法
- A Land-Cover Classification Method Using Point of Interest
- 武汉大学学报·信息科学版, 2019, 44(5): 758-764
- Geomatics and Information Science of Wuhan University, 2019, 44(5): 758-764
- http://dx.doi.org/10.13203/j.whugis20170046
-
文章历史
收稿日期: 2018-04-10
2. 华南师范大学地理科学学院, 广东 广州, 510631
2. School of Geography, South China Normal University, Guangzhou 510631, China
地表覆盖及变化数据是环境变化研究、地理国情监测和可持续发展规划的重要科学数据,其分类与制图一直是国内外研究的热点[1]。目前主要采用遥感影像分类制图方式,由专业人员通过分析遥感影像中的光谱和纹理信息,结合专家先验知识和各种参考资料,提取地表覆盖类型和分布信息[2]。该方法受遥感影像获取和分类技术的影响,存在生产周期长、成本高、自动化程度低等问题,难以满足地表覆盖产品快速制图的需求。为减少制图成本,满足用户对地表覆盖产品日益变化的应用需求,需要发展一种新的地表覆盖分类方法。
近年来,随着地理时空大数据的应用与发展,很多学者已经尝试将带地理标签的图片、轨迹、兴趣点(point of interest,POI)等众源地理数据应用到地表覆盖和土地利用的分类中[3-9]。如文献[3]根据Flickr数据的图像特征,利用贝叶斯方法研制了小范围的地表覆盖分类图;文献[4]应用Geo-Wiki中的地理标记信息,通过志愿者对其所在地区的地表覆盖类型进行人工判断,实现了中等分辨率地表覆盖的分类与制图。上述两种方法需要人工解译大量的样本图片,耗时费力。文献[5]通过腾讯QQ用户的时空轨迹构建了人类时空活动指数,分析了人类活动与土地利用分类的关系,该方法的研究视角新颖,但腾讯QQ用户的轨迹数据并不公开,获取相对困难;文献[6]结合Landsat影像的植被指数特征和POI数据的类别特征,提出了城市区域土地利用的分类方法,由该方法成功得到了土地利用分类图,但其同样受限于遥感影像的获取技术。
事实上,现有方法大多聚焦于众源地理数据的位置、图像特征、人类活动聚集特征和社会经济特征等方面,忽略了其自身携带的文本语义信息,如POI文本中“餐馆”“高尔夫球场”“海滨浴场”的语义分别对应了人造地表、草地和水体等地表覆盖类别。因此,本文提出了一种利用POI文本语义的地表覆盖分类方法。
1 理论与方法本文的研究思路如图 1所示。首先以POI数据集中的文本信息和位置信息为分类依据,构建POI文档,并应用潜在狄利克雷分布(latent Dirichlet allocation,LDA)主题模型[10],从POI文档中计算与地表覆盖类型相关的POI文本词语分布与主题分布;然后应用支持向量机(support vector machine,SVM)分类算法[11]将文档中POI文本的主题分布作为输入数据,并依据部分标注的地表覆盖类型构建地表覆盖分类模型,实现地表覆盖的自动分类;最后以遥感影像地表覆盖分类结果为依据,对本文方法进行验证。
1.1 基于LDA的POI文本主题计算 1.1.1 顾及POI文本的LDA主题模型构建为了将POI文本按照相似语义进行主题归类,并计算出归类后的POI文本的主题分布,本文选用LDA模型对POI的文本主题进行计算[12-13]。如图 2所示,LDA模型以文档为输入变量,并假定文档是由一定分布概率下的主题Z与词语W决定的,其中,词语W由主题Z构成;θ和ϕ决定了文档中主题Z的分布概率和主题Z中词语W的分布概率;超参数α和β为模型输入参数,影响了主题Z的分布概率θ和词语W的分布概率ϕ;M为文档的数量;N为每篇文档中词语W的个数;K是主题Z的数量,为模型输入参数V。
将POI的文本信息当做单词W,相似语义的POI文本看作是一个主题Z,应用LDA模型对POI文本语义进行归类并计算其主题分布。首先,模型需要构建用于模型输入的文档d。本文考虑到距离相近的POI可能包含相同或相似的文本语义,因此把研究区划分为相同分辨率的栅格单元,并将所有落入同一个栅格单元的POI文本词语W作为一个文档。然后,将文档应用于LDA主题模型,计算文档中主题Z的分布概率θ和每个主题中POI文本词语W的分布概率ϕ,其计算公式为:
$\theta = \frac{{n_d^{(K)} + {\alpha _Z}}}{{\sum\limits_{z = 1}^K {n_d^{(K)}} + {\alpha _Z}}} $ | (1) |
$\phi = \frac{{n_K^{(W)} + {\beta _W}}}{{\sum\limits_{W = 1}^V {n_K^{(W)}} + {\beta _W}}} $ | (2) |
式中,nd(K)为主题Z在文档d中出现的次数;nK(W)为词语W在主题Z中出现的次数;V为词语W的数量。
1.1.2 LDA主题模型的参数调整LDA主题模型中的超参数α、β与主题数K决定了文档中主题Z的分布概率θ和每个主题中POI文本词语W的分布概率ϕ。其中,α、β的取值可根据现有模型的优化参数确定,因此本文直接利用文献[14]中的优化参数,取值具体为α=50/K,β=0.1,而主题数K需要依据POI的文本语义来定。为了确定适用于地表覆盖分类的主题数K,本文引入衡量文本混合度的指标(perplexity)来计算不同主题数K下主题Z的文本语义归类情况。perplexity的计算公式为:
${\rm{perplexity}}(d) = \exp \left[ { - \frac{{\sum\limits_{d = 1}^M {\lg } p\left( {{W_d}} \right)}}{{\sum\limits_{d = 1}^M {{N_d}} }}} \right] $ | (3) |
式中,p(Wd)为词语Wd属于文档d的概率;Nd则为文档d中词语W的数量的大小; perplexity值表示文档属于某个主题Z的不确定性,perplexity的值越小,表示计算结果中主题Z的可信度越高。
1.1.3 POI文本主题计算在确定模型参数α、β、K后,需要计算得到文档中主题Z的分布概率矩阵P,以及每个主题中POI文本词语W的分布概率矩阵R。其矩阵构建如下:
$\mathit{\boldsymbol{P}} = \begin{array}{*{20}{c}} {\left[ {\begin{array}{*{20}{c}} {{\theta _{ii}}}&{{\theta _{ij}}}&{{\theta _{ik}}}&{{\theta _{il}}}\\ {{\theta _{ji}}}&{{\theta _{jj}}}&{{\theta _{jk}}}&{{\theta _{jl}}}\\ {{\theta _{ki}}}&{{\theta _{kj}}}&{{\theta _{kk}}}&{{\theta _{kl}}}\\ {{\theta _{li}}}&{{\theta _{lj}}}&{{\theta _{lk}}}&{{\theta _{ll}}} \end{array}} \right]} \end{array} $ | (4) |
$\mathit{\boldsymbol{R}} = \begin{array}{*{20}{c}} {\left[ {\begin{array}{*{20}{c}} {{\phi _{ii}}}&{{\phi _{ij}}}&{{\phi _{ik}}}&{{\phi _{il}}}\\ {{\phi _{ji}}}&{{\phi _{jj}}}&{{\phi _{jk}}}&{{\phi _{jl}}}\\ {{\phi _{ki}}}&{{\phi _{kj}}}&{{\phi _{kk}}}&{{\phi _{kl}}}\\ {{\phi _{li}}}&{{\phi _{lj}}}&{{\phi _{lk}}}&{{\phi _{ll}}} \end{array}} \right]} \end{array} $ | (5) |
式中,矩阵P的行号i、j、k、l表示第i、j、k、l个主题,列号表示第i、j、k、l个文档;矩阵R的行号表示POI类型,列号表示主题。如θij表示第j个文档下第i个主题的分布概率,ϕjk表示第k个主题下第j个POI类型的分布概率。POI文本词语W的分布概率矩阵R反映了主题归类的可信度,文档中主题Z的分布概率矩阵P反映了地表覆盖类型的分布,用于地表覆盖自动分类。
1.2 基于POI文本主题的地表覆盖分类由于主题Z包含的POI文本词语W与地表覆盖类型具有语义的关联,且文档中主题Z的分布反映了地表覆盖类型的分布,本文依据主题Z的分布概率矩阵P,应用SVM算法来构建地表覆盖分类模型。
SVM算法中最重要的因素为核函数的选择与参数gamma、cost的取值。本文选用sigmoid作为核函数,其计算公式为:
$S\left( x \right) = \frac{1}{{1 + {{\rm{e}}^{ - x}}}} $ | (6) |
并应用网格搜索算法,选取gamma和cost的最优值。网格搜索算法通过遍历所有文档,采用交叉验证的方式计算不同参数下模型的分类精度,得到地表覆盖分类精度最高时参数的取值。
2 地表覆盖实验与分析 2.1 实验数据本文以中国北京市为研究区域,实验数据集选用新浪微博、百度、高德地图的POI数据。POI数据是通过官方网站提供的应用程序编程接口(API)采集,其中,新浪微博的POI时间为2015年,百度、高德地图的POI则为2016年。如表 1所示,除了位置信息外,3种POI共有的文本属性为类型与地址。考虑到POI地址中的文本信息多为道路名称,无法反映地表覆盖信息,本文将POI类型作为用于主题分析的文本数据。去除带有未知分类等无法判断地表覆盖类型的POI后,利用POI的位置信息和文本信息,将共计928类、1 903 658个POI构建为11 916个用于主题模型输入的文档。
数据源 | 数量/个 | 采集时间 | 属性 |
新浪微博 | 141 746 | 2015年 | POI ID,城市类型编码,签到数,类型编码,类型,照片数,(X,Y) |
百度 | 239 352 | 2016年 | ID,名称,(X,Y),POI类型,地址 |
高德地图 | 1 522 560 | 2016年 | ID,标签,名称,类型,类型编码,地址,(X,Y),邮政编码 |
将POI数据与遥感影像叠加后发现,大部分POI落于人造地表中,而少量的数据落入森林、耕地、水体等非人造地表。如图 3所示,图 3(a)区域为城市,POI分布密集,文本语义中大多为商业、住宅等反映人造地表类型的主题;图 3(b)区域为森林,POI分布稀疏,文本语义多与风景区、休闲娱乐相关;图 3(c)区域为散落分布的耕地与村庄,POI分布相对较少,POI类型主要反映了乡镇、村庄等主题;图 3(d)区域靠近水体,POI多沿着水体集中分布,文本与水域和休闲度假相关。由于反映人造地表的POI相对较多,而反映森林、耕地与水体的POI数据较少,且POI文本语义在人造地表与非人造地表之间有明显区分,因此,本文将地表覆盖类型分为人造地表与非人造地表。
2.2 POI文本主题计算考虑到现有地表覆盖数据的分辨率多为1 km,因此,本文以1 000 m×1 000 m分辨率的栅格单元为例,构建用于主题模型输入的文档d。采用perplexity指标对POI文本主题分布进行计算,旨在确定POI文本的主题数K。首先,将M个文档划分为80%的实验数据和20%的测试数据,利用80%的实验数据分别计算K∈(2,500)时文本的主题分布;继而,在现有主题分布的基础上,计算20%的测试数据下的perplexity值。
实验结果如图 4所示,perplexity值呈一条先急剧下降、后趋于平稳的曲线,随着主题数K的增加,perplexity值不断减小,且减小速度不断下降。当K=2时,perplexity值接近50 000,并在K增加至60时骤降为约10 000;当K>60时,perplexity值的下降速度明显变缓,并趋于一条平稳的直线,说明当主题数K>60并继续增加时,POI文本主题的可信度并没有明显升高。考虑到K的取值过大使得POI文档的主题数过多,导致地表覆盖分类特征冗余,故选取主题数K值为60。
为验证K=60时POI主题归类的可信度,选取了60个主题中部分主题的POI类型分布。如表 2所示,同一个主题中分布概率较高的POI往往具有相同或相似的类型。如主题3中分布概率较高的POI类型为“住宅区”“房地产”“住宅小区”等,都反映了居民住宅相关主题;主题14中“休闲场所”“农家院”“度假村”等POI类型反映了户外休闲娱乐相关主题;主题46中“采摘园”“垂钓园”“其他农林牧渔基地”等POI类型反映了农林牧渔相关主题。
主题3 | 主题14 | 主题46 | |||||
POI类型 | 分布概率 | POI类型 | 分布概率 | POI类型 | 分布概率 | ||
住宅区 | 0.467 172 | 休闲场所 | 0.558 826 | 采摘园 | 0.170 714 | ||
房地产 | 0.254 096 | 农家院 | 0.100 558 | 其他农林牧渔基地 | 0.153 525 | ||
住宅小区 | 0.105 637 | 度假村 | 0.057 300 | 桥 | 0.138 904 | ||
临街院门 | 0.090 700 | 体育休闲服务 | 0.024 530 | 农林园艺 | 0.044 958 | ||
洗衣店 | 0.017 361 | 度假疗养场所 | 0.011 654 | 垂钓园 | 0.033 894 | ||
商务住宅相关 | 0.005 750 | 水上活动中心 | 0.003 841 | 河流 | 0.023 324 |
选取样本构建地表覆盖分类模型时,考虑到地表覆盖中混合地类的存在,分类样本的选择应尽量避免包含多种地表覆盖类型的POI文档。本文选取了1 064个文档,其中700个为训练样本,364个为测试样本,并人工标注每个文档的地表覆盖类型。
应用本文方法得到的地表覆盖分类模型的分类精度如表 3所示。在700个训练样本中,353个非人造地表与283个人造地表被正确分类,62个人造地表被分为非人造地表,2个非人造地表被分为人造地表,分类精度为90.86%。在364个测试样本中,分别有204个非人造地表和120个人造地表被正确分类,38个人造地表被分为非人造地表,2个非人造地表被分为人造地表,分类精度为89.01%。
地表覆盖 | 训练样本 | 合计 | 测试样本 | 合计 | ||
非人造地表 | 人造地表 | 非人造地表 | 人造地表 | |||
非人造地表 | 353 | 62 | 415 | 204 | 38 | 242 |
人造地表 | 2 | 283 | 285 | 2 | 120 | 122 |
合计 | 355 | 345 | 700 | 206 | 158 | 364 |
精度/% | 90.86 | 89.01 |
依据本文提出的地表覆盖分类模型,对11 916个POI文档进行分类,得到的部分地区分类结果如图 5所示。其中,图 5(a)中散落在非人造地表中的人造地表图斑对应了图 5(d)遥感影像中被耕地包围的城镇地区,分类结果表明该模型能够识别非人造地表中的人造地表图斑;图 5(b)为稀疏的非人造地表对应了图 5(e)遥感影像中山地地区的森林,表明该模型在POI数据较少时仍能对非人造地表进行分类;图 5(c)为大面积人造地表与少数散落的非人造地表图斑对应了图 5(f)遥感影像中北京市的城市中心区,这表明分类模型能够将城市建成区分类为人造地表,同时,该区域中的水体和植被能够被分类为非人造地表。
2.4 精度验证为检验地表覆盖分类结果,本文选用北京市2015年遥感影像,采用随机抽样的方式对上述地表覆盖分类结果进行精度验证。为减小随机抽样造成的精度验证不准确的问题,分别随机抽取1 000、2 000、3 000、4 000个样本进行目视解译工作。验证精度结果如表 4所示。4次抽样的整体精度分别为84.20%、81.95%、82.27%与82.55%;Kappa系数分别为0.554、0.487、0.498、0.503;用户精度中,非人造地表的验证精度整体高于人造地表,但验证精度差别不大,均为80%左右;而生产者精度中,非人造地表的生产者精度明显高于人造地表,分别为94%左右和50%左右。其中,被错误分类的人造地表多靠近建成区的绿地设施,包含“公园”“公园广场”等语义信息,而目视解译中将该地表覆盖类型划分为人造地表,造成人造地表生产者精度过低。与其他地表覆盖产品的制图精度相比,如Globe Land 30的整体验证精度达到80%以上[1],而本文方法所得分类精度与其相近。
精度验证 | 1 000个样本 | 2 000个样本 | 3 000个样本 | 4 000个样本 | |||||||
非人造地表 | 人造地表 | 非人造地表 | 人造地表 | 非人造地表 | 人造地表 | 非人造地表 | 人造地表 | ||||
用户精度/% | 85.15 | 80.00 | 82.25 | 80.43 | 83.53 | 76.45 | 83.83 | 76.59 | |||
生产者精度/% | 94.94 | 55.02 | 95.56 | 46.96 | 94.23 | 50.18 | 94.32 | 50.51 | |||
总体精度/% | 84.20 | 81.95 | 82.27 | 82.55 | |||||||
Kappa | 0.554 | 0.487 | 0.498 | 0.503 |
本文提出了一种应用POI数据进行地表覆盖自动分类的方法,其应用LDA主题模型进行POI文本信息的主题计算,并将其作为SVM分类算法的输入变量来构建地表覆盖分类模型。实验结果表明,本文方法的地表覆盖分类总体精度在82%左右,与传统基于遥感影像的分类精度相当。但是,得益于POI数据的实时更新、便捷获取以及文本自动分类方法的成熟,本文方法的生产周期和成本明显降低,自动化程度大幅度提升,可作为传统遥感影像分类的一种辅助手段,在一定程度上能够满足地表覆盖产品快速制图的需求。
本文提出的方法仍有继续深入研究和改进之处,特别是要进一步深度挖掘众源地理数据中的文本语义信息,提高地表覆盖分类精度,以弥补分辨率较低的不足;同时,需要考虑利用其他众源地理数据,对地表覆盖中的水体、森林、耕地等非人造地表进行分类;此外,还需考虑混合地表覆盖类型对分类结果与精度的影响。
[1] |
Chen J, Chen J, Liao A, et al. Global and Cover Mapping at 30 m Resolution:A POK-Based Opera-tional Approach[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2015, 103: 7-27. DOI:10.1016/j.isprsjprs.2014.09.002 |
[2] |
Chen Jun, Chen Jin, Liao Anping, et al. Concept Sand Key Techniques for 30 m Global Land Cover Mapping[J]. Acta Geodaetica et Cartographica Sinica, 2014, 43(6): 551-557. (陈军, 陈晋, 廖安平, 等. 全球30 m地表覆盖遥感制图的总体技术[J]. 测绘学报, 2014, 43(6): 551-557. ) |
[3] |
Sitthi A, Nagai M, Dailey M, et al. Exploring Land Use and Land Cover of Geotagged Social-Sensing Images Using Naive Bayes Classifier[J]. Sustainability, 2016, 8(9): 921-942. DOI:10.3390/su8090921 |
[4] |
See L, Schepaschenko D, Lesiv M, et al. Building a Hybrid Land Cover Map with Crowdsourcing and Geographically Weighted Regression[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2015, 103: 48-56. DOI:10.1016/j.isprsjprs.2014.06.016 |
[5] |
Lu Guozhen, Chang Xiaomeng, Li Qingquan, et al. Land Use Classification Based on Massive Human-Activity Spatio-temporal Data[J]. Journal of Geo-information Science, 2015, 17(12): 1497-1505. (鲁国珍, 常晓猛, 李清泉, 等. 基于人类时空活动的城市土地利用分类研究[J]. 地球信息科学学报, 2015, 17(12): 1497-1505. ) |
[6] |
Hu T, Yang J, Li X, et al. Mapping Urban Land Use by Using Landsat Images and Open Social Data[J]. Remote Sensing, 2016, 8(2): 151-168. |
[7] |
Xing H, Meng Y, Hou D, et al. Exploring Point-of-Interest Data from Social Media for Artificial Surface Validation with Decision Trees[J]. International Journal of Remote Sensing, 2017, 38(23): 6945-6969. DOI:10.1080/01431161.2017.1368101 |
[8] |
Xing H, Meng Y, Hou D, et al. Employing Crowdsourced Geographic Information to Classify Land Cover with Spatial Clustering and Topic Model[J]. Remote Sensing, 2017, 9(6): 602-621. DOI:10.3390/rs9060602 |
[9] |
Meng Y, Hou D, Xing H. Rapid Detection of Land Cover Changes Using Crowdsourced Geographic Information:A Case Study of Beijing, China[J]. Sustainability, 2017, 9(9): 1547-1562. DOI:10.3390/su9091547 |
[10] |
Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022. |
[11] |
Cortes C, Vapnik V. Support-Vector Networks[J]. Machine Learning, 1995, 20(3): 273-297. |
[12] |
Adams B, Janowicz K. Thematic Signatures for Cleansing and Enriching Place-related Linked Data[J]. International Journal of Geographical Information Science, 2015, 29(4): 556-579. |
[13] |
Lansley G, Longley P A. The Geography of Twitter Topics in London[J]. Computers Environment and Urban Systems, 2016, 58: 85-96. DOI:10.1016/j.compenvurbsys.2016.04.002 |
[14] |
Griffiths T L, Steyvers M. Finding Scientific Topics[J]. Proceedings of the National Academy of Sciences of the United States of America, 2004, 101(S1): 5228-5235. |