留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

利用社交媒体数据模拟城市空气质量趋势面

王艳东 荆彤 姜伟 王腾 付小康

王艳东, 荆彤, 姜伟, 王腾, 付小康. 利用社交媒体数据模拟城市空气质量趋势面[J]. 武汉大学学报 ● 信息科学版, 2017, 42(1): 14-20. doi: 10.13203/j.whugis20150401
引用本文: 王艳东, 荆彤, 姜伟, 王腾, 付小康. 利用社交媒体数据模拟城市空气质量趋势面[J]. 武汉大学学报 ● 信息科学版, 2017, 42(1): 14-20. doi: 10.13203/j.whugis20150401
WANG Yandong, JING Tong, JIANG Wei, WANG Teng, FU Xiaokang. Modeling Urban Air Quality Trend Surface Using Social Media Data[J]. Geomatics and Information Science of Wuhan University, 2017, 42(1): 14-20. doi: 10.13203/j.whugis20150401
Citation: WANG Yandong, JING Tong, JIANG Wei, WANG Teng, FU Xiaokang. Modeling Urban Air Quality Trend Surface Using Social Media Data[J]. Geomatics and Information Science of Wuhan University, 2017, 42(1): 14-20. doi: 10.13203/j.whugis20150401

利用社交媒体数据模拟城市空气质量趋势面

doi: 10.13203/j.whugis20150401
基金项目: 

国家自然科学基金 41271399

测绘地理信息公益性行业科研专项经费 201512015

高等学校博士学科点专项科研基金 20120141110036

国家科技支撑计划 2012BAH35B03

详细信息
    作者简介:

    王艳东, 教授, 主要从事城市大数据分析计算等研究。ydwang@whu.edu.cn

  • 中图分类号: P208

Modeling Urban Air Quality Trend Surface Using Social Media Data

Funds: 

The National Natural Science Foundation of China 41271399

China Special Fund for Surveying, Mapping and Geoinformation Research in the Public Interest 201512015

the Specialized Research Fund for the Doctoral Program of Higher Education 20120141110036

the National Key Technology R & D Program of China 2012BAH35B03

More Information
    Author Bio:

    WANG Yandong, PhD, professor, specializes in Big Data analysis and calculation.ydwang@whu.edu.cn

图(8) / 表(1)
计量
  • 文章访问数:  1292
  • HTML全文浏览量:  39
  • PDF下载量:  512
  • 被引次数: 0
出版历程
  • 收稿日期:  2015-10-20
  • 刊出日期:  2017-01-05

利用社交媒体数据模拟城市空气质量趋势面

doi: 10.13203/j.whugis20150401
    基金项目:

    国家自然科学基金 41271399

    测绘地理信息公益性行业科研专项经费 201512015

    高等学校博士学科点专项科研基金 20120141110036

    国家科技支撑计划 2012BAH35B03

    作者简介:

    王艳东, 教授, 主要从事城市大数据分析计算等研究。ydwang@whu.edu.cn

  • 中图分类号: P208

摘要: 近年来,随着城市的发展,空气污染日益严重。目前,我国城市空气质量监测主要依靠空气质量监测站,但监测站数量有限,并且空气质量在一个城市的不同区域会出现较大起伏,单一利用监测站不易发现城市所有位置的空气质量起伏变化。对此,利用带有地理位置信息的新浪微博数据,分析空气污染相关主题微博与空气质量监测站点空气质量指数(air quality index,AQI)数据的相关性,建立两者间的函数关联,提出了一种建立城市空气质量趋势面的方法。实验结果表明,该方法不仅能定性地表现出城市不同区域的相对空气质量,也可定量、细粒度地展示城市空气质量情况。

English Abstract

王艳东, 荆彤, 姜伟, 王腾, 付小康. 利用社交媒体数据模拟城市空气质量趋势面[J]. 武汉大学学报 ● 信息科学版, 2017, 42(1): 14-20. doi: 10.13203/j.whugis20150401
引用本文: 王艳东, 荆彤, 姜伟, 王腾, 付小康. 利用社交媒体数据模拟城市空气质量趋势面[J]. 武汉大学学报 ● 信息科学版, 2017, 42(1): 14-20. doi: 10.13203/j.whugis20150401
WANG Yandong, JING Tong, JIANG Wei, WANG Teng, FU Xiaokang. Modeling Urban Air Quality Trend Surface Using Social Media Data[J]. Geomatics and Information Science of Wuhan University, 2017, 42(1): 14-20. doi: 10.13203/j.whugis20150401
Citation: WANG Yandong, JING Tong, JIANG Wei, WANG Teng, FU Xiaokang. Modeling Urban Air Quality Trend Surface Using Social Media Data[J]. Geomatics and Information Science of Wuhan University, 2017, 42(1): 14-20. doi: 10.13203/j.whugis20150401
  • 近年来,随着城市的快速发展,我国空气质量不断恶化。以2013年第一季度为例,我国遭受了异常严重且持续时间较长的雾霾污染影响[1]。目前,城市空气质量监测主要依靠空气质量监测站对空气中的常规污染因子和气象参数进行监测,通过分析得出空气质量指数(air quality index, AQI),用以定量描述空气质量状况。由于监测站的建设成本高昂,一个城市中站点的数量是有限的。然而受多方面因素(如地表植被、交通流量、楼房密度等)影响,空气质量在一个城市的不同区域会出现较大起伏[2]。研究城市中不同区域空气质量的起伏状况有助于城市空气污染的监测和防治。

    人类社会正进入“大数据”时代,特别是互联网和信息行业的发展引起人们的广泛关注[3-5]。大数据的兴起,为人们理解社会经济环境带来新的机遇,可以有效捕捉社会经济特征[6]。近些年,脸谱(Facebook)、推特(Twitter)和微博(Microblog)等社交媒体成为人类沟通的重要媒介[7],是重要的大数据源。国内外学者利用社交媒体数据,在发现城市格局、揭示人类移动和活动规律等方面作了大量研究。文献[8]利用概率主题模型分析推特数据并自动提取城市格局,文献[9-10]利用社交媒体签到数据研究城市人类移动与活动的规律。同时,很多学者也使用社交媒体数据进行各种模拟预测,在疾病预测[11-13]、灾害探测[14-16]、选举结果预测[17-18]等方面进行了很多研究。文献[11]通过分析以流感为关键词的推特数据,发现真实世界流感爆发的出现与社交媒体信息的某些趋势具有很强相关性;文献[14]利用推特的实时特性进行灾害探测,预测地震发生时间,定位灾害中心与轨迹;文献[17]通过对2012年美国总统大选两位候选人相关的社交媒体信息趋势进行比较,较准确地预测了大选的最终结果。

    新浪微博是我国使用较广泛的社交媒体应用之一,它连续不断地产生涉及社交用户日常生活的海量数据,这些数据包含时间、用户情感等多种属性。用户利用带有GPS的设备,比如智能手机等发布微博,他们可以在微博中加入发布时的位置信息[19]。随着空气质量的不断恶化,许多人比之前更关注空气质量,并借助新浪微博这个平台发表自身看法[20]。这些带有位置信息的新浪微博数据从某种程度上可反映微博发布位置真实的空气状况。

    本文提出了一种利用带有地理位置信息的新浪微博数据模拟城市空气质量趋势面的方法。首先,分析了新浪微博数据与城市空气质量的相关性;然后,利用麦夸特算法拟合空气质量指数AQI与微博数量的函数关联;根据该关联,推测出城市各格网中的AQI,并以AQI为虚拟高程值建立城市空气质量趋势面。这是首次利用带有地理位置信息的社交媒体数据建立空气质量趋势面的尝试,对城市细粒度空气质量进行定量的模拟,为城市局部空气质量模拟提供了一种新的方法。

    • 趋势面可以模拟地理要素在空间上的分布规律,展示地理要素在地域空间上的变化趋势。本文利用带有地理位置信息的新浪微博数据,提出了建立城市空气质量趋势面的方法。该方法流程如图 1所示,主要包含4部分:相关数据采集与预处理、新浪微博数据与空气质量指数的相关性分析、空气质量指数与新浪微博数据间的的函数关系拟合与精度验证、城市空气质量趋势面建立。

      图  1  城市空气质量趋势面建立与分析流程

      Figure 1.  Processing of Establishing and Analysing of Urban Air Quality Trend Surface

    • 本文研究区域为北京市区,研究时间为2013-03~2013-08。数据采集主要分为3部分:

      1) PM25.in网站提供的2013-03~2013-08北京市五环内7个空气质量监测站点(万柳、东四、农展馆、万寿西宫、天坛、奥体中心、官园)粒度为h的AQI数据共29 448条。对该部分数据,通过计算得出各站点每个月的平均AQI。

      2)事先对与空气污染相关的新浪微博数据进行人工判读,发现微博文本中较多出现“空气污染”、“口罩”、“雾霾”这些词。故使用这些词作为搜索关键词,利用网络爬虫与新浪微博应用程序编程接口(application programming interface, API)获取研究区域2013-03~2013-08带有地理位置信息的新浪微博数据37 409条。对数据先进行去重、去除转发微博、去除无关应用微博等预处理,然后用人工的方式进行微博情感分类预处理,具体做法为成立一个5人小组,每个人对所有微博文本进行人工判读,只标记出表达“空气质量差”的微博。对于某条微博,如果同时被3个及以上人标记,就认为该条微博的确在表达“空气质量差”的含义,并将其选出作为实验数据。最终剩余数据量为9 532条。约定本文中该部分数据用Wk表示。

      3)利用网络爬虫与新浪微博API获取研究区域2013-03~2013-08无关键词并带有地理位置信息的新浪微博数据,通过去重、去除转发微博、去除无关应用微博等预处理,剩余总量为7 514 729条。由于无法获得细粒度的人口密度数据,而人口密度在短时间内基本保持稳定,因此,带有地理位置信息且无关键词的新浪微博数据在一定程度上可以反映人口的区域分布情况。本文用这部分数据来进行标准化工作,以消除人口密度带来的地区差异。本文约定用Wn表示该部分数据。

    • 目前大量的微博用户感受到周围恶劣的空气污染时会通过发微博来抒发不满、无奈的情绪,提出相应的建议等。这使得用户发布的关于空气污染的新浪微博数与空气污染状况之间存在一定的相关性。本文以北京市7个监测站点为样本,对样本周围Wk数量与样本月均AQI之间的相关性进行分析。

      首先,以监测站点为中心,分别做出半径为1、1.5、2、2.5 km的缓冲区;然后,统计各样本点缓冲区内对应的Wk数量与Wn数量;利用相同缓冲区范围内Wn数量进行标准化,以消除区域人口密度差异带来的影响;最后,通过统计产品与服务解决方案(statistical product and service solutions,SPSS)软件分析得出不同半径缓冲区内各样本Wk数量与样本月均AQI的相关系数,如表 1所示。当缓冲区半径为2 km时,相关系数最高,达到0.785,显著性小于0.01,说明此时Wk数量与空气污染程度存在显著相关性。另外,从图 2所展示的Wk数量与样本月均AQI的散点图可看出,Wk数量与月均空气质量指数存在较明显的正相关关系,表明本文使用的新浪微博数量可较好地反映微博发布位置的空气质量情况。

      表 1  Wk数量(标准化)与月均AQI的相关性分析

      Table 1.  Correlation Analysis of Standardized Quantitiy of Wk and Monthly Average AQI

      缓冲区半径/km 皮尔逊相关性 显著性
      1 0.640** 0.000
      1.5 0.681** 0.000
      2 0.785** 0.000
      2.5 0.781** 0.000
        注:**表示在0.01水平(双侧)上显著相关。

      图  2  半径为2 km的缓冲区内Wk数量与月均AQI的散点图

      Figure 2.  Scatter Plot of the Quantity of Wk and Monthly Average AQI in the 2 km-Radius Buffer

    • 本文设计了一种拟合月均AQI与Wk数量之间函数关联的方法,根据某位置附近新浪微博数量推测该位置的空气质量指数。拟合流程如下。

      1)格网划分。对北京市研究区域进行格网划分(100 m×100 m)。

      2)样本所在格网的微博数量获取。①由于相关性分析研究时发现缓冲区半径为2 km时相关性最大,故以样本所在格网为中心,以4 km×4 km为范围,统计各样本所在格网中加权过后的Wk数量与Wn数量,权重为设定范围内的各格网到样本所在格网地理距离的倒数。②采用§1.2节中的标准化处理方法对样本所在格网的Wk数量进行标准化。③最终得到样本所在格网中经过加权标准化后的新浪微博数量,记为G。计算方法为:

      $$ G{\rm{ = }}\frac{{\sum\nolimits_{i = 1}^n {\frac{1}{{{d_i}}}{N_i}} }}{{\frac{1}{6}\sum\nolimits_{j = 1}^6 {\sum\nolimits_{i = 1}^n {\frac{1}{{{d_i}}}{M_{ij}}} } }} $$ (1)

      式中,di为4 km×4 km范围内任一格网到样本所在格网的地理距离;n为同范围内的所有格网数;Nii格网中的Wk数量;Mji为第j个月i格网中的Wn数量。

      3)样本月均AQI与G的函数曲线拟合。麦夸特算法(Levenberg-Marquardt, LM)是解决非线性拟合问题的有效方法,其主要原理就是利用迭代程序进行计算残差平方和来评估是否达到最佳拟合效果,当残差平方和达到最小值时,迭代过程结束,得出的即为拟合公式的最优结果[21]。使用LM需使残差平方和达到最小,即要通过多次迭代使所求参数无限接近最佳参数。本文中,初始参数与函数公式选择,以及算法迭代部分主要在1stopt软件中进行,使用样本对应的月均AQI与G数据迭代至收敛时,拟合出的函数方程为:

      $$ Y{\rm{ = }}5091.71{X^{{\rm{-}}0.63{\rm{-}}69.21/X}} + 99.86 $$ (2)

      式中,Y为月均AQI;XG。函数方程拟合优度(R2)为0.65,该值是趋势线拟合的指标,它表示函数关联式(2)可解释拟合所用的AQI变异程度的65%。F检验统计量(F-statistic)为263.75,在0.01水平上显著,说明拟合所用G可较好地解释其对应的AQI数据。这些指标均表明该函数方程回归拟合效果较好,各站点的函数拟合AQI与实际月均AQI相差较小。图 3是样本的散点图及拟合函数曲线。从图中曲线可以看出,样本的G增大时,其对应的月均AQI变化较快,而当G超过400时,其对应的月均AQI变化逐渐趋于平稳。总体来说,月均空气质量指数对于新浪微博数量的影响比较敏感,当新浪微博数据量变化时,其对应的月均AQI也会表现出相应的变化。本文从7站点中选出农展馆站点作出实际与推测AQI的对比柱状图,如图 4所示。从图 4中可以看出,站点实际AQI与函数推测AQI接近,表明函数拟合效果很好。

      图  3  样本的散点图与拟合函数曲线

      Figure 3.  Scatter Plot and the Function Fitting Curve of All Samples

      图  4  农展馆的实际与推测AQI对比

      Figure 4.  Comparison of Observed and Calculated AQI of Station China Agricultural Exhibition Center

      使用传统的十折验证进行精度验证,将数据随机分为10组,利用其中9组做拟合,剩余一组做结果验证。经10次十折交叉验证得出平均的绝对平均误差(mean absolute error,MAE)为10.59。图 5为10次交叉验证中MAE的分布图。从图 5中可以看出,在10次验证中,MAE均在8~14之间浮动,处于较稳定状态。这些均表明本文得出的函数关联具有较好的稳定性,可以对北京市的各格网进行AQI推测。

      图  5  10次十折交叉验证中的MAE分布

      Figure 5.  MAE Distribution of 10 Times of the 10-fold Cross Validation

    • 利用月均AQI与新浪微博数量的拟合函数可以推测出北京市所有格网的AQI。以格网AQI为虚拟高程,建立北京市研究区域内的空气质量趋势面,进而可查询城市任意位置的空气质量。空气质量势面建立分为3个步骤:

      1)与§1.3节中获取样本所在格网的微博数量方法相同,得出北京市每个格网加权标准化后的G

      2)利用月均AQI与G的拟合函数和各格网G,推测出所有格网的AQI值。

      3)以各格网推测AQI为虚拟高程,模拟出3~8月分别关于AQI的数字高程模型(digital elevation model,DEM)。本文的DEM并非传统的DEM,而是使用推测出的空气质量指数替代实际高程值作为虚拟高程建立起的空气质量数字高程模型,即本文最终得出的空气质量趋势面。它可反映推测出的空气质量在空间上的起伏分布。图 6为3~8月的北京市模拟空气质量三维趋势面在ArcGIS软件中显示的效果图,红色凸起区域表示推测出的空气质量较差,绿色凹陷区域表示推测出的空气质量较好。在趋势面上点击任意位置可以查询该位置的模拟AQI,能够清晰反映该位置的月均质量状况。

      图  6  2013年3~8月北京市模拟空气质量三维趋势面图

      Figure 6.  Three-Dimensional Calculated Air Quality Trend Surfaces from March to August of Beijing in 2013

      本文提出的建立城市空气质量趋势面的方法为展示细粒度的城市空气质量提供了有效途径。通过该方法建立的三维空气质量趋势面,不仅可定性地表现区域空气质量的分布情况,立体并直观地显示出空气质量相对污染与相对良好的区域,而且与传统的密度图定性展示方法相比,通过模拟空气质量指数定量地反映区域空气质量情况,从具体数值上对细粒度的空气污染程度进行展现。

    • 由于受地形、经济、交通、人口、用地等各种因素影响,一个城市中有些区域相对其他区域污染更为严重。提取这些区域有利于空气污染的预防与治理。本文设计的空气污染相对严重区域提取的具体方法为:先将各月每个格网的推测AQI从小到大排列,约定每月排列中推测AQI大小排在后1/3的格网为相对污染区域。然后提取在6个月中出现4次及以上相对污染的格网,可以认为这些格网的空气质量受时间影响较小,受空间影响较大,约定其为空气污染相对严重的区域。北京市2013年空气污染相对严重区域提取结果如图 7所示,红色区域表示模拟空气质量相较其他区域更差的地方。将空气污染区域图与行政区图叠加后可勾画出这些较为污染的区域。例如,图 7中展示的方框1和方框2是朝阳区空气污染较差的两个区域,1是朝阳区奥体中心空气监测站点附近,2是朝阳区商务中心区附近。为了验证本文方法的正确性,本文对7个监测站点3~8月每天每小时的AQI进行统计,得出每个月各站点严重污染等级(AQI>300)出现的次数,并对每个月各站点出现该等级的次数进行排序,统计各月中出现严重污染等级次数排名前三的站点。若某站点有4个月或以上均排名前三,则认为该站点污染较严重。各月出现严重污染等级次数排名前三的站点情况如图 8所示,其中奥体中心站点是唯一一个出现4次(3月、5月、6月、8月)的站点。所以奥体中心站点附近区域确实比其他区域空气污染更严重。

      图  7  模拟空气污染行政区分布

      Figure 7.  Administrative Distribution of Calculated Area Pollution

      图  8  3~8月各月中出现严重污染次数排名前三的站点

      Figure 8.  Top Three Stations of High Occurrence Number of Severely Polluted Air Quality Level of Every Month

    • 目前城市空气质量不断恶化,而空气监测站点个数过少,无法进行城市空气质量精细检测。本文分析带有空气污染相关主题与地理位置信息的新浪微博数据与空气质量监测站点AQI数据的相关性,并在此基础上建立两者间的函数关联,利用该函数关联构建城市三维空气质量趋势面。本文方法不仅定性地表现了城市不同区域相对空气质量,而且利用模拟的空气质量指数可定量、细粒度地展示城市空气质量情况。这对反映城市不同位置的空气质量分布情况以及及时发现空气相对污染区域上具有重要意义,也为城市局部空气质量模拟研究提供了一种新的方法。但研究过程中也存在一定不足,比如无法获得城市实际空气质量趋势面,从而无法确切地检验本文建立的空气质量趋势面的精度。

      本文为初步探索,未来还有大量的研究工作有待完成。首先在空间上,对于北京市的格网划分,可尝试多种不同尺度,分析各种尺度下的结果变化;其次在时间上,需要进行更细粒度的研究,同时考虑时间的周期性变化影响,分析城市每日的空气质量变化;再次,可在研究中加入更多相关的数据源,比如气象数据等,可提高算法的准确性。另外,对趋势面进行空间分析时发现,朝阳区商务中心区与奥体中心站点附近模拟空气质量相对较差,可进一步对这两个现象产生的原因进行分析。

参考文献 (21)

目录

    /

    返回文章
    返回