-
当今社会, 环境空间资源配置与人群时空活动规律不匹配的现象十分常见。其中, 因忽视公众出行规律而对文化景点、风景区等环境空间的不合理配置, 导致了诸如拥挤、管理资源浪费、服务设施缺乏等问题, 影响了公众出行游憩的舒适度。因此, 如何正确评价空间的吸引力、合理设计空间以满足人群活动, 其意义重大。
传统方法主要以调查问卷获得的公众行为喜好和地点评价或专家评价为依据进行分析[1-5], 耗时长, 工作量大, 成本高, 无法获取人们使用空间的详细数据, 更难以获取人们体验空间的行为特征和规律。在大数据时代, 有学者利用轨迹数据或网络数据对时空行为进行了研究[6-19]。如张霞等[6]提出了基于搜索量、签到和点赞等网络大数据建立景观热度评估模型, 并结合视域评价美丽度; 李君轶等[7]基于社会感知计算, 结合数字足迹概念对游客时空行为进行了研究; Zheng等[8]基于GPS轨迹, 根据不同地点的被访问次数以及访问者的旅行经历, 挖掘了人们兴趣度最高的地点, 并进行了经典旅行推荐; Chen等[9]通过对Flic-ker用户的签到、照片、个人信息的挖掘, 个性化提出了旅行推荐; Ahas等[15]利用手机数据研究了季节对游憩的影响。这些研究只是单一地利用轨迹数据或网络数据, 忽视了线上线下活动的关联性, 也没有考虑到历史足迹对日后活动的影响。Cord[17]虽然结合手机游戏Geocaching与网络调查数据对休闲活动在城市空间的空间梯度、喜好和动力进行了研究, 但调查数据不能与海量大数据相提并论。
本文首次提出了线上线下数据融合, 以独特的视角分析人们的行为特点, 将之与生物觅食进行比较。通过将人们在真实地理空间及虚拟网络空间中留下的数字轨迹进行融合并建立模型, 空间的吸引力得到了量化描述与评价。利用采样接近5 a的轨迹数据及网络大数据, 对北京28个游憩空间进行实验, 本文方法计算得到的信息素分布不仅体现了空间的实际游憩价值, 而且为未来的潜在游憩价值提供了参考。
HTML
-
在自然界中, 昆虫通过生物信息素进行通信, 信息素由个体分泌到体外, 被同物种生物察觉, 使后者作出反应。例如, 蚂蚁在移动时, 既会在经过的路径上留下信息素, 也会感知已有信息素, 受其影响朝浓度高的方向移动。因此, 由大量蚂蚁组成的蚁群集体行为便表现出一种信息正反馈现象:某一路径上经过的蚂蚁越多, 则后来者选择该路径的概率就越大[20]。当蚁群中的一只蚂蚁寻觅到了食物, 其余蚂蚁也能沿着信息素迅速找到食物。蚂蚁间通过这种方式的信息交流达到高效搜索食物的目的。
人们在网络和现实空间进行日常活动时, 也会产生大量线上线下的痕迹, 此类轨迹将影响其他人活动。这种规律与生物觅食时释放信息素吸引同伴的模式很相似。从个体角度来说, 每个人像一只蚂蚁, 在空间中搜寻着愉悦的景观。当人们对感兴趣的地点进行搜索、签到、点赞与朋友圈推荐时, 会在线上空间产生相应数据, 反映出景观线上热度; 而人们在线下现实空间中游憩、拍照, 留下的轨迹数据则暗示了景观线下热度。偏好及正面评价的效果如同信息素, 增强了地点吸引力。从群体角度来说, 人们是作用于空间的智能群体, 像蚂蚁一样在空间中根据信息素觅食, 与同伴之间互相影响。
在生物觅食模式中, 蚂蚁受信息素影响, 往浓度高的方向移动, 通往食物的路径因此被更多的蚂蚁经过, 积累了高浓度信息素, 又吸引了更多蚂蚁。依据空间吸引力与信息素的类比, 本文以同样模式衡量人们在未来受各景观空间吸引的程度。
-
基于生物信息素思想, 本文首先提出了景观热度信息素(M)的概念, 描述人们与空间交互过程中留下的具有吸引作用的信息。信息的强弱以信息素浓度表示, 它综合表现了景观当前热度以及未来游憩潜力等, 即信息素浓度越高的空间在未来可能吸引更多的人, 正如生物信息素浓度高的路径会吸引更多蚂蚁一样。用Mi表示第i个景观的信息素浓度, 是标准化的无量纲值, 由人们在现实和网络空间中留下的数字轨迹所决定, 其值越高, 该地点的游客来访率(P)越高。
-
人们在不同景观的停留时长是不同的, 这与景观人文历史、自然风景与舒适性有关, 停留时长反映了人们对该处的喜好程度。人们在某地的停留时间越长, 表现出对该地的喜好越浓厚, 释放的信息素也越多。基于日常研究与观察, 这种关系是非线性的。在较短的时间(如5~10 min), 停留行为可能只是简单经过, 停留长短只体现了很小的喜好度差异; 而当停留时间较长时, 喜好度会随着停留时间的延长而显著增加; 但当人们停留相当长的时间时, 说明人们对环境的喜好度已达到了很高的水平, 此时喜好度不再因停留延长产生显著变化, 如停留3~4 h体现出的喜好度差异很小。基于此, 本文假设停留时长与喜好度间的关系呈S型曲线, 如图 1所示(图 1只作为方便理解的假设示意图, 不是真实的量化关系, 曲线应通过实验确定)。
Logistic模型是被广泛应用的经典S型曲线模型[21-22], 基本公式如下:
本文以该模型为基础, 建立如下的线下空间信息素释放模型:
式(1)、(2)中, τik表示游憩时贡献的信息素; α、β分别为Logistic回归待确定参数; Tik表示游客k在景观i的停留时长(已去除面积影响)。式(3)中, Tik* 表示游客k在景观i的真实停留时长; Si表示场地面积。
与生物信息素释放类似, 游憩空间大小也影响了人们的停留时间和信息素释放。在生物觅食模式中, 较长路径上的信息素总量较多, 但其信息素浓度却可能较低, 低浓度并不能达到吸引同类的效果。游憩行为中, 在整个空间范围停留的时间也受到场地大小的影响, 导致停留的时间长短不能直接说明人们留下的景观热度信息素浓度。因此在式(3)中, 模型类比浓度思想将场地面积的影响进行了标准化。
在线上空间中, 信息素的释放主要由人们对景观的关注与评价体现。网络搜索量、签到数和照片数与景观热度信息素紧密相关, 景观等级则是景观受欢迎程度的另一相关因素, 因此评估时都需要被考虑。此处, 线上信息素Aik的计算参考了张霞等[6]基于网络热度的道路景观评价中的方法:
式中, Lik、Hik、Gik、Qik分别表示景观i在k时期的等级、景观图片数、网络搜索量、签到人数; w1、w2根据文献[6]取0.5。不同评价时间段的计算, 使用截止到不同时间的数据。
-
生物信息素具有挥发性, 随着时间流逝, 信息素逐渐挥发, 强度递减。对于景观热度信息素, 挥发性体现在:距离评估时间越久的行为产生的信息素挥发得越多, 时间权重越小。比如多年前某景观受到很高的关注, 而今却不再受欢迎了。特殊事件也会影响空间吸引力, 例如北京刚举办奥运会时, 鸟巢与水立方的热度较高, 但随着时间流逝, 其吸引力减弱。因此线下时空活动应具有合适的权重, 即:
式中, ρ为挥发系数, 参考蚁群算法[20]; tn、t分别表示评价时间和游憩时间; 120 d为挥发周期。挥发系数决定了某行为产生的信息素经过一个周期后残留的比率, 在实验中确定; 而确立挥发周期时, 取值过长, 时间影响微弱, 表现不出挥发效果, 若周期过短, 不符合实际变化情况时, 容易因数据质量影响效果。
对于不同景观类型, 挥发系数和挥发周期的取值不会产生变化, 且周期为120 d, 主要有以下原因:首先, 对于自然风景类, 其吸引力变化大多是季节性的, 已有研究探讨了游憩行为的季节性差异[15]; 其次, 对于事件引起的时效性, 如新建的游憩空间或举办的活动(如奥运会、电影拍摄地等), 其挥发周期难以确定; 最后, 对于像故宫这类经典景区, 其时效性不明显。因此, 在研究中主要考虑季节性周期, 并考虑到经典景区的时效较长, 适当扩展周期至120 d, 而挥发系数由实验确定; 在不同研究目的下, 可调整挥发周期, 挥发系数也产生相应变化, 应由初步实验来确定最佳值。
每个游憩空间中, 不同人访问产生的信息素会不断累积, 来访人次越多, 信息素浓度也会越高。对于此特点, 模型对公众在每个景观点产生的信息素进行加权累计, 以体现总体的游憩偏好。此过程包含了依据来访时间进行挥发处理和对所有来访的集成, 可以表示为:
式中, τi表示线下空间第i个景点所有人留下的信息素集成浓度; τik表示游客k贡献的信息素量; wtk表示这一时空活动的时间权重。
显然, 线上空间信息素也具有挥发性, 因此在对线上数字轨迹累计时, 也同样需要添加时间权重。而根据线上轨迹数据量较大的特征, 本文方法将其按120 d周期分别计算线上热度, 再乘以时间权重进行累加, 得:
式中, Ai表示线上空间中第i个景点的全部研究时段的信息素浓度; Aik表示景观i在时段k的信息素量, 时段的长度为120 d。
-
现实空间和网络空间的时空数据在对象类型和尺度上具有异质性和关联性。现实空间中的轨迹体现的是实际游憩喜好, 而网络热度则暗示潜在价值和关注度; 在研究群体上, 前者仅限于到访过的对象, 而后者则是全国乃至全世界的网民; 相对而言, 线下轨迹数据的时空尺度更精细。在融合线上、线下信息素之前, 为了消除数量级的影响, 便于比较线上、线下信息素的差异, 先将线下信息素τi与网络热度Ai分别作标准化处理, 公式为:
式中, x为标准化值; x′为原始数值; xmin、xmax分别为最小值、最大值。
标准化线下信息素τi与网络热度Ai后, 按照如下数学模型:
以多项式加权的方式将人们在线上、线下两个空间释放出的信息素进行融合, 计算最终的景观热度信息素。式(9)中, wτ、wA分别是线下、线上空间的融合权重, 通过实验回归分析确定; Mi表示第i个景观的信息素集成浓度。
-
信息素浓度越高的空间在未来具有更大的可能性来吸引更多的人, 正如生物信息素浓度高的路径上会吸引更多的蚂蚁往该路径方向运动的模式一样。基于该思想, 本文以真实来访率Pi作为观测值与信息素浓度作多元回归实验。最终以数学模型(9)为基础, 计算信息素浓度(Mi)的高低, 作为评价指标, 对每个游憩空间的当前热度与未来吸引力进行评估。
在回归分析过程中, 根据评价时刻的信息素, 按照式(10)计算每个地点的游憩来访率, 并与真实来访率(式(11))进行比较, 以构建回归模型。
式(10)和式(11)中, ∑Mi表示所有景观的信息素集成浓度之和; η是系数; n、N分别表示未来一定时间段内该景观的来访人次与人们实际出行总人次。
2.1. 线上线下的空间行为特性
2.2. 景观热度信息素随时间的挥发与累积
2.3. 网络空间活动与现实空间活动的融合
2.4. 景观热度评价
-
本文将北京市作为实验区, 利用2007-2012年采集的181个样本在北京进行户外活动时的GPS数据和相应时间网络中的北京市景观搜索量、签到数、微博照片数等作为主要数据源, 辅以景观等级、游览面积等数据进行实验。其中, 线下轨迹样本主要由本地青年群体构成:75%的样本年龄在22~30岁之间, 低于22岁和高于30岁的样本比例分别为16%和9%。低于25岁的学生占58%, 其他人为政府机构及公司的工作人员, 男女比例均衡。而网络数据的搜索量根据谷歌的高级搜索筛选, 微博签到与照片数利用微博开发平台与爬虫手段获取。
为了提高效率并挖掘公众的游憩模式和偏好, 本文对原始数据进行了筛选、提取、无量纲化等工作。对轨迹数据的预处理依次包括:对原始采样点进行轨迹段识别; 筛选低速段(小于1.6 m/s); 提取低速轨迹段的中心。而对网络数据的预处理主要是无量纲化, 参考文献[6]的方法, 通过式(12)对景观面积、相应时间的搜索量、微博签到数和照片发布数等, 采用对数法进行无量纲化处理。
式中, x表示处理后的数据; x*为处理前的数据。
此外, 在选定评价景观时, 本文参考了文献[4, 12, 23]所研究的地点以及旅游网站上的热门景点, 结合公众在活动轨迹中心的空间核密度分析结果中表现出的偏好特点, 筛选出28个北京市热门游憩场所作为研究对象。
-
在基本数学模型中, 许多权重与参数并未确定。不同地区的景观热度受线上、线下因素的影响程度存在差异, 大城市的网络数据比乡村丰富, 而时间挥发参数也未确定。因此评估模型的最优参数应以信息素模式的基本特征为规则, 通过实验模拟来确定。图 2是将数据按时间分为两部分, 模拟历史人群活动对未来人群到访产生影响的过程, 采用Logistic回归和多元线性回归, 获取最佳的参数与权重。
首先, 利用SPSS软件对式(2)进行Logistic回归以确定α、β。为了简化分析, 也因时间挥发系数未知, 暂不考虑挥发, 以平均停留时长代替单次停留时间, 以游憩来访率代替单次信息素释放。分析得到α=0.001 35, β=-3.367, 拟合结果如图 3所示。
按照式(10)和式(11), 以Pi拟合真实来访率, 分别计算挥发系数及融合权重(η对权重比例确定无影响, 因此不考虑)。在确定挥发系数时, 以0.6~0.9为候选范围, 与不挥发的情况进行比较。若系数过小, 会因过分挥发损失数据, 导致拟合不佳; 而当系数过大甚至不挥发时, 对时间挥发的体现过小, 忽视了事件的时间相关性。因此, 合理的参数应通过实验确定。图 4为不同挥发系数的回归效果。由图 4可见, 当挥发系数为0.9时, 可达到拟合度(R2)峰值, 且优于无权重的情况。
在确定线上、线下信息素的融合权重时, 实验主要依据式(2)至式(9)计算了每个景观所有游憩者释放的线下信息素及相应的线上网络热度, 按式(8)标准化处理后, 对两个空间的信息素进行线性回归分析, 以确定合理系数, 结果如表 1所示, 对分析结果的标准化系数进行归一化处理后, 确定了权重wτ=0.53, wA =0.47, 则式(9)为:
模型 相关性 标准化系数 显著性 常量 - - 0.712(不显著) 线上 0.664 0.415 0.016 线下 0.684 0.459 0.008 注:显著性表示小于0.05的显示数据分析具有统计学意义 Table 1. Determination of Weight Coefficients
式中, τi与Ai均为标准化后的值。
-
本文研究将现实空间时空轨迹与网络热度进行融合, 并以生物信息素模式特点为指导, 对吸引力进行量化分析。与基于网络热度的评价方法[6]比较, 本文实验计算出的信息素浓度与未来到访率有更高的相关性, 一定程度上对公众时空活动规律和每个地点的被访问率具有参考意义。表 2对比了不同方法的拟合效果。由表 2可知, 融合模型对实际值的拟合度达到了58.9%, 而单独基于线下数据的方法和单独基于网络热度的方法[6]则分别达到48.8%和44.1%。可见, 融合评价模型对于未来到访人次的回归拟合表现出优于单靠网络数据或线下轨迹数据为研究指标的方法, 体现了线上、线下数据综合考虑的优势。
数据 拟合度R2 基于线下轨迹数据 0.488 基于线上网络数据 0.441 融合模型 0.589 Table 2. Comparison of Regression Results with Different Methods
与具有严密数学物理背景的拟合分析相比, 本文研究的现象受到不确定因素(如社会、情感、个人习惯、突发事件)的影响, 因此最终拟合效果要逊色一些; 但与研究同现象的方法比较, 则表现出了优越性。
图 5为3种方法的拟合效果, 可以看出, 融合模型的拟合效果优于线上或线下拟合, 但也存在几个突出的地点拟合不一致的情况, 主要原因之一是个体的习惯性游憩行为。根据相关研究[24-25], 因受个人喜好和时空约束, 个体的活动地点较为固定。数据前期集中对一些个体进行了长期取样, 因此过高估计了某地点的热度, 导致了后期拟合不佳。同样, 后期一些样本的习惯性行为也影响了拟合效果。例如9号什刹海公园在后期的访问率非常高, 在拟合中表现出了不一致, 是由于后期某样本习惯性的访问所致。与之相似, 2号恭王府的拟合不一致则是由前期某样本习惯性游憩行为导致。此外, 重大事件的影响也是其一大原因。如2008年北京奥运会期间, 相关游憩空间在此期间较热门, 访问率高, 而后期则没有那么高的访问率, 从而导致了拟合误差。
依据确立的模型, 对北京市28个主要城市景观的信息素浓度进行计算, 图 6以三维方式对比了本文方法与张霞等基于网络热度方法[6]的最终评价结果。表 3列出了结果中前10名景观热度信息素浓度的评价结果, 前5名依次为圆明园、颐和园、奥林匹克公园、天坛公园、故宫, 而未列出的明城墙遗址公园、皇城根遗址公园及南馆公园的信息素浓度最低。
排名 景观 评价结果 网络热度 1 圆明园 101.114 90 5 2 颐和园 95.591 89 4 3 奥林匹克公园 79.359 68 1 4 天坛公园 71.678 62 6 5 故宫 70.964 30 2 6 北京欢乐谷 64.316 67 11 7 玉渊潭公园 63.256 01 17 8 长城 61.027 03 3 9 香山公园 60.945 09 14 10 什刹海公园 60.810 20 8 Table 3. Popularity Evaluation of Landscapes in Beijing Based on Pheromone
由图 6可见, 1~5号地点的热度在两种方法中都比较高, 均为前5位。8号长城在信息素方法中表现出的热度较低, 6、7号的热度则较网络方法高, 原因在于信息素模型的线下部分考虑了地点空间分布的优劣条件。长城的地理位置距市中心较远, 交通便利度低, 因此线下数据访问量受到影响, 而在网络空间中, 人们的关注则较少考虑了游憩地的空间分布。
实验结果中, 一些线上热度高的地点, 信息素评价值却可能不高, 原因除了上述的空间条件外, 还源于线下数据样本中一些长期居住实验者倾向于去一些景观质量高、安静、不拥挤的地点进行休憩。而线上空间的信息素则多分布于知名度较高的景点, 当实验中长期居住者较多时, 样本受到网络的影响将比纯游客样本小, 这一点也体现在融合模型的线上线下信息素权重差异方面(wτ=0.53, wA=0.47)。此外, 因数据中存在少量比例的样本取样横跨了两个时期, 可能导致个人的习惯性游憩行为[24-25]对结果产生了一定影响。
在传统方法中, 李芬等[4]以统计数据与调查问卷为主要数据, 对北京城市公园湿地的休憩吸引力进行了研究。在此结果中, 具有高休憩吸引力的公园湿地依次为颐和园、奥林匹克公园、青龙湖公园、北海公园、圆明园, 在本文结果中, 颐和园、奥林匹克公园、圆明园也获得了较高的评估值。但与之不同, 本文的研究对象不限于公园湿地, 还增加了知名度较高的地点, 同时不仅考虑了景观对本地居民的休憩吸引力, 还考虑了景观的旅游价值与网络知名度。与传统方法相比, 本文利用客观大数据反映了人群活动规律, 模拟了信息素影响人们访问景观的过程, 参数通过回归分析获得, 能适应于不同的评价对象与时间。
此外, 在以北京为研究区域的实验中, 对游憩空间吸引力的评价结果具有一定程度的时效性。这种时效性是指结果中各地点信息素浓度的高低, 暗示的仅为与评价时间(2012年9月)比较近的未来时间内的空间吸引力, 而已发生或将发生的事件都将影响这种时效性。例如, 在北京举办奥运会后, 鸟巢水立方的热度会较高, 但随着时间流逝, 其对人们的吸引力减弱。在本文实验中, 并未对特定时间段进行研究, 如果未来有更丰富的特定时间段(特定季节或节假日等)的数据, 可根据本文方法对时间段进行限制, 分析特定季节或节假日的情况, 以进行更深入的研究。
3.1. 实验数据
3.2. 参数确定
3.3. 结果分析
-
本文首次将时空轨迹大数据与网络社交媒体大数据进行了融合, 并将生物信息素的思想引入到时空行为分析研究中, 建立了景观空间吸引力评估模型, 并拟合了未来到访率, 以校正模型结构。实验以北京市为例, 选取了28处景观进行验证, 结果表明, 与仅考虑网络数据或线下轨迹数据的方法相比较, 本文方法的结果与未来各空间的吸引力相关度更高, 体现出新方法对人们的实际出行感受和景观潜在游憩价值的综合分析能力。与传统方法相比, 本文利用众源大数据, 客观分析了人们的行为特征和规律, 且模型参数根据回归实验确定, 适应于不同研究对象与时间, 具有广泛应用性。其中, 对线上线下时空行为活动特征的综合分析为未来相关数据融合研究也提供了参考意义。基于信息素的线上线下数据融合和时空行为分析具有的综合性、挖掘性、时效性等特点, 对不同时间段、不同群体的行为特征进行分析, 并进一步应用于城市空间的优化配置、最美路径规划等方面, 将是下一步更深入的研究方向。