留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

顾及停留位置特征提取的个人位置预测方法

李帆 夏吉喆 黄赵 李晓明 李清泉

李帆, 夏吉喆, 黄赵, 李晓明, 李清泉. 顾及停留位置特征提取的个人位置预测方法[J]. 武汉大学学报 ● 信息科学版, 2020, 45(12): 1970-1980. doi: 10.13203/j.whugis20200068
引用本文: 李帆, 夏吉喆, 黄赵, 李晓明, 李清泉. 顾及停留位置特征提取的个人位置预测方法[J]. 武汉大学学报 ● 信息科学版, 2020, 45(12): 1970-1980. doi: 10.13203/j.whugis20200068
LI Fan, XIA Jizhe, HUANG Zhao, LI Xiaoming, LI Qingquan. Predicting Personal Next Location Based on Stay Point Feature Extraction[J]. Geomatics and Information Science of Wuhan University, 2020, 45(12): 1970-1980. doi: 10.13203/j.whugis20200068
Citation: LI Fan, XIA Jizhe, HUANG Zhao, LI Xiaoming, LI Qingquan. Predicting Personal Next Location Based on Stay Point Feature Extraction[J]. Geomatics and Information Science of Wuhan University, 2020, 45(12): 1970-1980. doi: 10.13203/j.whugis20200068

顾及停留位置特征提取的个人位置预测方法

doi: 10.13203/j.whugis20200068
基金项目: 

国家重点研发计划 2018YFB2100704

国家自然科学基金 41701444

国家自然科学基金 41971341

详细信息

Predicting Personal Next Location Based on Stay Point Feature Extraction

Funds: 

The National Key Reasearch and Developmeny Program of China 2018YFB2100704

the National Natural Science Foundation of China 41701444

the National Natural Science Foundation of China 41971341

More Information
  • 摘要: 预测居民的未来活动位置与轨迹,为传染病防控、交通疏导、公共安全等城市智慧管理和服务提供主要决策依据。当前的个人位置预测方法往往基于个体的历史轨迹规律模式挖掘与建模进行位置预测,对于个体在不同停留位置的特征信息挖掘不够充分。为此,提出一种顾及停留位置特征提取的个人位置预测模型。首先,模型基于轨迹数据构建历史轨迹链路,采用位置发现规则将轨迹链路转化为停留位置链路,对停留位置进行空间聚类以构建聚类链路;其次,对不同的停留位置进行特征信息(进入/离开时间、天气状况、土地利用)提取,并提取聚类链路的空间特征;最后,将带有特征信息的链路代入长短期记忆神经网络进行定制集成,并实现个人位置的预测。实验结果表明,基于深圳市志愿者用户23天300余万个轨迹位置数据,本模型用户位置预测的F值在不同时间步长参数下均优于变阶马尔可夫模型(约5.5%增益)和传统N阶马尔可夫模型(约7%增益),引入停留位置特征的模型性能增益约为6.6%。
  • 图  1  预测模型框架

    Figure  1.  Framework of Prediction Model

    图  2  停留位置的产生

    Figure  2.  Generation of Stay Points

    图  3  聚类过程检测出没有语义含义的地点

    Figure  3.  Some Places Without Semantic Meanings may be Detected by Clustering

    图  4  聚类的构建过程

    Figure  4.  Construction Process of Clusters

    图  5  使用LSTM的4层预测框架

    Figure  5.  Four-Layer Prediction Framework Using LSTM Model

    图  6  设置2 h时间间隔的特征提取例子

    Figure  6.  Example of the Two-hour Interval-Based Feature Extraction

    图  7  时间步长为3的滑动窗口

    Figure  7.  Sliding Window While Time Step is 3

    图  8  GPS点数和志愿者人数的分布

    Figure  8.  Distribution of the Number of GPS Points and the Number of Volunteers

    图  9  不同停留位置数量的志愿者人数

    Figure  9.  Number of Volunteers with the Different Number of Stay Points

    图  10  当MinPts设置为5时不同Eps值的聚类个数

    Figure  10.  Number of Clusters with Different Eps Values when the MinPts Set to 5

    图  11  不同时间间隔的预测结果

    Figure  11.  Prediction Results with Different Time Interval

    图  12  不同时间步长下不同模型的预测结果

    Figure  12.  Prediction Results of Different Models with Different Time Steps

    图  13  不同训练数据量下不同模型的预测结果

    Figure  13.  Prediction Results of Different Models with Different Training Data Sizes

    表  1  土地利用性质分类表

    Table  1.   Classification of Land Use

    分类 相关用地或建筑类型
    居家 住宅
    工作 办公
    上学 学校
    休闲娱乐 公园、绿地、景点等
    购物 商业
    交通 机场等大型交通枢纽
    其他 其他
    下载: 导出CSV

    表  2  模型参数设置表(第一次调参)

    Table  2.   Parameter Setting of LSTM Model (the First Parameter Regulation)

    参数 描述 取值
    学习率 用于控制模型的学习速率 0.001
    梯度下降优化算法 用于更新权重和最小化损失函数 Adam算法
    批处理大小 指定每次迭代训练的样本数 64
    迭代周期数 指定整个大样本迭代的轮次 30
    隐层神经元个数 指定隐层神经元的个数 9
    下载: 导出CSV

    表  3  不同学习率下验证集上的预测准确率(第一次调参)

    Table  3.   The Prediction Accuracy of Different Parameter Combinations on Verification Set (the First Parameter Regulation)

    batch size 算法 学习率
    0.001 0.003 0.005 0.007 0.009 0.01 0.03 0.05 0.07 0.09
    16 Momentum 0.693 0.723 0.725 0.726 0.727 0.727 0.727 0.727 0.726 0.721
    RMSprop 0.702 0.703 0.702 0.706 0.702 0.703 0.707 0.696 0.708 0.702
    Adam 0.728 0.724 0.721 0.719 0.718 0.718 0.716 0.719 0.715 0.711
    32 Momentum 0.685 0.702 0.716 0.722 0.725 0.722 0.727 0.727 0.727 0.725
    RMSprop 0.723 0.723 0.722 0.721 0.721 0.721 0.719 0.714 0.716 0.711
    Adam 0.728 0.725 0.721 0.719 0.717 0.717 0.712 0.715 0.715 0.715
    64 Momentum 0.663 0.686 0.697 0.705 0.706 0.711 0.726 0.727 0.727 0.728
    RMSprop 0.727 0.726 0.727 0.726 0.725 0.726 0.725 0.716 0.708 0.701
    Adam 0.731 0.726 0.723 0.721 0.717 0.719 0.711 0.714 0.717 0.716
    128 Momentum 0.615 0.682 0.686 0.692 0.696 0.701 0.721 0.727 0.727 0.727
    RMSprop 0.727 0.727 0.727 0.727 0.727 0.726 0.722 0.715 0.723 0.715
    Adam 0.728 0.726 0.724 0.723 0.721 0.721 0.714 0.713 0.715 0.716
    下载: 导出CSV

    表  4  不同迭代周期数在验证集上的预测准确率(第二次调参)

    Table  4.   Prediction Accuracy of Different Parameter Combinations on Verification Set(the Second Parameter Regulation)

    rnn_unit epochs
    10 20 30 40 50 60 70 80
    3 0.619 0.672 0.683 0.695 0.698 0.702 0.699 0.698
    6 0.704 0.722 0.726 0.728 0.728 0.728 0.729 0.730
    9 0.726 0.728 0.731 0.731 0.731 0.731 0.730 0.731
    12 0.728 0.728 0.731 0.731 0.731 0.731 0.730 0.731
    15 0.729 0.729 0.731 0.731 0.731 0.730 0.730 0.730
    18 0.729 0.729 0.730 0.731 0.731 0.730 0.729 0.729
    下载: 导出CSV
  • [1] Cécile B, Lathia N, Picot-Clemente R, et al. Location Recommendation with Social Media Data[M]// Social Information Access. Cham: Springer, 2018.
    [2] Xia Jizhe, Curtin K M, Huang Jiajun, et al. A Carpool Matching Model with Both Social and Route Networks[J]. Computers, Environment and Urban Systems, 2019, 75(5): 90-102
    [3] Lian Defu, Zhu Yin, Xie Xing, et al. Analyzing Location Predictability on Location-Based Social Networks[C].The Pacific-Asia Conference in Knowledge Discovery and Data Mining, Singapore, 2014
    [4] Song Chaoming, Qu Zuhui, Blumm N, et al. Limits of Predictability in Human Mobility[J]. Science, 2010, 327(5 968): 1 018-1 021
    [5] Xia Jizhe, Yang Chaowei, Li Qingquan. Using Spatiotemporal Patterns to Optimize Earth Observation Big Data Access: Novel Approaches of Indexing, Service Modeling and Cloud Computing[J]. Computers, Environment, and Urban Systems, 2018, 72(5): 191-203
    [6] Zheng Xin, Han Jialong, Sun Aixin. A Survey of Location Prediction on Twitter[J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 30(9): 1 652-1 671 doi:  10.1109/TKDE.2018.2807840
    [7] Zhang Junbo, Zheng Yu, Qi Dekang, et al.Predicting Citywide Crowd Flows Using Deep Spatio-Temporal Residual Networks [J]. Artificial Intelligence, 2017, 259(9): 182-194
    [8] Jia Tao, Yan Penggao. Predicting Citywide Road Traffic Flow Using Deep Spatiotemporal Neural Networks[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 12(12): 1-11
    [9] 詹平, 郭菁, 郭薇.基于时空索引结构的移动对象将来时刻位置预测[J].武汉大学学报(工学版), 2007, 40(3): 103-108

    Zhan Ping, Guo Jing, Guo Wei. Query Processing About Near Future Positions of Moving Objects Based on Spatio-Temporal Index Structure[J]. Engineering Journal of Wuhan University, 2007, 40(3): 103-108
    [10] 柯宏发, 何可, 陈永光.运动目标的MGM(1, N)轨迹预测算法[J].武汉大学学报·信息科学版, 2012, 37(6): 35-39 http://ch.whu.edu.cn/article/id/229

    Ke Hongfa, He Ke, Chen Yongguang. Trajectory Prediction Algorithm of Moving Object Based on MGM(1, N)[J].Geomatics and Information Science of Wuhan University, 2012, 37(6): 35-39 http://ch.whu.edu.cn/article/id/229
    [11] 邓敏, 陈倜, 杨文涛.融合空间尺度特征的时空序列预测建模方法[J].武汉大学学报·信息科学版, 2015, 40(12): 1 625-1 632 doi:  10.13203/j.whugis20130842

    Deng Min, Chen Ti, Yang Wentao. A New Method of Modeling Spatio-temporal Sequence by Considering Spatial Scale Characteristics[J]. Geomatics and Information Science of Wuhan University, 2015, 40(12): 1 625-1 632 doi:  10.13203/j.whugis20130842
    [12] Keles I, Ozer M, Toroslu I H, et al. Location Prediction of Mobile Phone Users Using Apriori-Based Sequence Mining with Multiple Support[C]. International Workshop on New Frontiers in Mining Complex Patterns, Wurzbury, Germany, 2015
    [13] Chen Pengfei, Shi Wenzhong, Zhou Xiaolin, et al. STLP-GSM: A Method to Predict Future Locations of Individuals Based on Geotagged Social Media Data[J]. International Journal of Geographical Information Systems, 2019, 33(12): 2 337-2 362 doi:  10.1080/13658816.2019.1630630
    [14] 段炼, 胡涛, 朱欣焰, 等.顾及时空语义的疑犯位置时空预测[J].武汉大学学报·信息科学版, 2019, 44(5): 765-770 doi:  10.13203/j.whugis20170238

    Duan Lian, Hu Tao, Zhu Xinyan, et al. Spatio-Temporal Prediction of Suspect Location by Spatio-Temporal Semantics[J]. Geomatics and Information Science of Wuhan University, 2019, 44(5): 765-770 doi:  10.13203/j.whugis20170238
    [15] Du Yongping, Wang Chencheng, Qiao Yanlei, et al. A Geographical Location Prediction Method Based on Continuous Time Series Markov Model[J]. PloS One, 2018, 13(11): 152-171 http://www.ncbi.nlm.nih.gov/pubmed/30452446
    [16] Li Fan, Li Qingquan, Li Zhen, et al. A Personal Location Prediction Method Based on Individual Trajectory and Group Trajectory[J]. IEEE Access, 2019, 7(7): 92 850-92 860
    [17] Li Fan, Li Qingquan, Li Zhen, et al. A Personal Location Prediction Method to Solve the Problem of Sparse Trajectory Data[C]. The 20th IEEE International Conference on Mobile Data Management (MDM), Hong Kong, China, 2019
    [18] Alahi A, Goel K, Ramanathan V, et al. Social LSTM: Human Trajectory Prediction in Crowded Spaces[C]. The 2016 IEEE Conference on Computer Vision and Pattern Recognition, New York, USA, 2016
    [19] Wu Fan, Fu Kun, Wang Yang, et al. A Spatial-Temporal-Semantic Neural Network Algorithm for Location Prediction on Moving Objects[J]. Algorithms, 2017, 10(2): 37-40 doi:  10.3390/a10020037
    [20] Wong M H, Tseng V S, Tseng J C C, et al. Long-Term User Location Prediction Using Deep Learning and Periodic Pattern Mining[C]. International Conference on Advanced Data Mining and Applications, Singapore, 2017
    [21] 李明晓, 张恒才, 仇培元, 等.一种基于模糊长短期神经网络的移动对象轨迹预测算法[J].测绘学报, 2018, 47(12): 102-111

    Li Mingxiao, Zhang Hengcai, Qiu Peiyuan, et al. Predicting Future Locations with Deep Fuzzy-LSTM Network[J]. Acta Geodaetica et Cartographica Sinica, 2018, 47(12): 102-111
    [22] Ying J J, Lee W, Tseng V S. Mining Geographic-Temporal-Semantic Patterns in Trajectories for Location Prediction[J]. ACM Transactions on Intelligent Systems and Technology, 2013, 5(1): 1-33
    [23] 王津铭.基于变阶Markov和LSTM的位置预测技术研究[D].北京: 北京邮电大学, 2018

    Wang Jinming. Research on Semantic Location Prediction Technology Using Variable Order Markov and LSTM[D]. Beijing: Beijing University of Posts and Telecommunications, 2018
    [24] Jain A, Zamir A R, Savarese S, et al. Structural-RNN: Deep Learning on Spatio-Temporal Graphs[C]. Computer Vision and Pattern Recognition, New York, USA, 2016
    [25] Greff K, Srivastava R K, Koutník J, et al. LSTM: A Search Space Odyssey[J]. IEEE Transactions on Neural Networks and Learning Systems, 2015, 28(10): 2 222-2 232
    [26] Xu K, Ba J, Kiros R, et al. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention[C]. The International Conference on Machine Learning, Toronto, USA, 2015
    [27] Zheng Yu, Zhang Lizhu, Xie Xing, et al. Mining Interesting Locations and Travel Sequences from GPS Trajectories[C]. The International Conference on World Wide Web, Madrid, Spain, 2009
    [28] Li Quannan, Zheng Yu, Xie Xing, et al.Mining User Similarity Based on Location History[C]. The International Conference on Advances in Geographic Information Systems, New York, USA, 2008
    [29] Yue Yang, Zheng Yu, Chen Yukun, et al. Mining Individual Life Pattern Based on Location History[C]. The International Conference on Mobile Data Management, Taipei, China, 2009
    [30] Ester M, Kriegel H, Sander J, et al. A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise[C].The International Conference on Knowledge Discovery and Data Mining, Portland, Oregon, USA, 1996
    [31] Macqueen J B. Some Methods for Classification and Analysis of Multivariate Observations[C]. Berkeley Symposium on Mathematical Statistics and Probability, Berkeley, 1965
  • [1] 姚永祥, 段平, 李佳, 王云川.  联合对数极坐标描述与位置尺度特征的无人机影像匹配算法 . 武汉大学学报 ● 信息科学版, 2022, 47(8): 1271-1278. doi: 10.13203/j.whugis20200362
    [2] 余列冰, 向隆刚, 孙尚宇, 关雪峰, 吴华意.  面向分布式列式存储的轨迹大数据k近邻查询 . 武汉大学学报 ● 信息科学版, 2021, 46(5): 736-745. doi: 10.13203/j.whugis20200136
    [3] 何亚坤, 艾廷华, 杜欣, 禹文豪.  网络空间向量剖分法识别城市路网网格模式 . 武汉大学学报 ● 信息科学版, 2018, 43(1): 138-139. doi: 10.13203/j.whugis20150757
    [4] 张兵.  遥感大数据时代与智能信息提取 . 武汉大学学报 ● 信息科学版, 2018, 43(12): 1861-1871. doi: 10.13203/j.whugis20180172
    [5] 李晓杰, 郭 睿, 黄 金, 朱陵凤, 谭红力, 董恩强.  神经网络在北斗导航卫星轨道预报中的应用 . 武汉大学学报 ● 信息科学版, 2015, 40(9): 1253-1258. doi: 10.13203/j .whu g is20130603
    [6] 高为广, 陈谷仓.  结合自适应滤波和神经网络的GNSS/INS抗差组合导航算法 . 武汉大学学报 ● 信息科学版, 2014, 39(11): 1323-1328.
    [7] 陈必焰, 戴吾蛟, 蔡昌盛, 夏朋飞.  层析反演与神经网络方法在电离层建模及预报中的应用 . 武汉大学学报 ● 信息科学版, 2012, 37(8): 972-975.
    [8] 林雪原, 鞠建波.  利用神经网络预测的GPS/SINS组合导航系统算法研究 . 武汉大学学报 ● 信息科学版, 2011, 36(5): 601-604.
    [9] 王志军, 顾冲时, 张治军.  GIS支持下基于遗传优化神经网络的溃坝生命损失评估 . 武汉大学学报 ● 信息科学版, 2010, 35(1): 64-68.
    [10] 高为广, 杨元喜, 张婷.  一种提高神经网络泛化能力的自适应UKF滤波算法 . 武汉大学学报 ● 信息科学版, 2008, 33(5): 500-503.
    [11] 余亮, 边馥苓.  粗糙神经网络在森林火灾预警中的应用 . 武汉大学学报 ● 信息科学版, 2006, 31(8): 720-723.
    [12] 蔡永香, 郭庆胜, 桂志先, 丁虹.  基于地震-测井数据预测储层参数空间分布规律的神经网络模型 . 武汉大学学报 ● 信息科学版, 2005, 30(4): 366-370.
    [13] 哈斯巴干, 马建文, 李启青, 戴芹.  多波段遥感数据的自组织神经网络降维分类研究 . 武汉大学学报 ● 信息科学版, 2004, 29(5): 461-465. doi: 10.13203/j.whugis2004.05.019
    [14] 李必军, 方志祥, 任娟.  从激光扫描数据中进行建筑物特征提取研究 . 武汉大学学报 ● 信息科学版, 2003, 28(1): 65-70.
    [15] 梁益同, 胡江林.  NOAA卫星图像神经网络分类方法的探讨 . 武汉大学学报 ● 信息科学版, 2000, 25(2): 148-152.
    [16] 沈未名, 仇彤, 曾勇, 张华.  基于神经网络的矢量量化与遥感影像有失真压缩编码 . 武汉大学学报 ● 信息科学版, 1996, 21(2): 124-127.
    [17] 黄文骞.  利用一种新的神经网络模型识别点状地图符号 . 武汉大学学报 ● 信息科学版, 1996, 21(1): 46-49.
    [18] 沈未名, 张祖勋, 张剑清.  基于神经网络的影像匹配概率松弛算法 . 武汉大学学报 ● 信息科学版, 1996, 21(3): 247-251.
    [19] 刘少创, 林宗坚.  基于神经网络的地图数字注记识别 . 武汉大学学报 ● 信息科学版, 1994, 19(3): 194-198.
    [20] 林宗坚, 刘少创.  自组织特征映射神经网络及其在彩色地图自动分层中的应用 . 武汉大学学报 ● 信息科学版, 1994, 19(2): 108-112.
  • 加载中
图(13) / 表(4)
计量
  • 文章访问数:  751
  • HTML全文浏览量:  204
  • PDF下载量:  98
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-09-30
  • 刊出日期:  2020-12-05

顾及停留位置特征提取的个人位置预测方法

doi: 10.13203/j.whugis20200068
    基金项目:

    国家重点研发计划 2018YFB2100704

    国家自然科学基金 41701444

    国家自然科学基金 41971341

    作者简介:

    李帆,硕士,研究方向为时空数据挖掘分析。2170276016@email.szu.edu.cn

    通讯作者: 夏吉喆,博士,助理教授。xiajizhe@szu.edu.cn
  • 中图分类号: P208

摘要: 预测居民的未来活动位置与轨迹,为传染病防控、交通疏导、公共安全等城市智慧管理和服务提供主要决策依据。当前的个人位置预测方法往往基于个体的历史轨迹规律模式挖掘与建模进行位置预测,对于个体在不同停留位置的特征信息挖掘不够充分。为此,提出一种顾及停留位置特征提取的个人位置预测模型。首先,模型基于轨迹数据构建历史轨迹链路,采用位置发现规则将轨迹链路转化为停留位置链路,对停留位置进行空间聚类以构建聚类链路;其次,对不同的停留位置进行特征信息(进入/离开时间、天气状况、土地利用)提取,并提取聚类链路的空间特征;最后,将带有特征信息的链路代入长短期记忆神经网络进行定制集成,并实现个人位置的预测。实验结果表明,基于深圳市志愿者用户23天300余万个轨迹位置数据,本模型用户位置预测的F值在不同时间步长参数下均优于变阶马尔可夫模型(约5.5%增益)和传统N阶马尔可夫模型(约7%增益),引入停留位置特征的模型性能增益约为6.6%。

English Abstract

李帆, 夏吉喆, 黄赵, 李晓明, 李清泉. 顾及停留位置特征提取的个人位置预测方法[J]. 武汉大学学报 ● 信息科学版, 2020, 45(12): 1970-1980. doi: 10.13203/j.whugis20200068
引用本文: 李帆, 夏吉喆, 黄赵, 李晓明, 李清泉. 顾及停留位置特征提取的个人位置预测方法[J]. 武汉大学学报 ● 信息科学版, 2020, 45(12): 1970-1980. doi: 10.13203/j.whugis20200068
LI Fan, XIA Jizhe, HUANG Zhao, LI Xiaoming, LI Qingquan. Predicting Personal Next Location Based on Stay Point Feature Extraction[J]. Geomatics and Information Science of Wuhan University, 2020, 45(12): 1970-1980. doi: 10.13203/j.whugis20200068
Citation: LI Fan, XIA Jizhe, HUANG Zhao, LI Xiaoming, LI Qingquan. Predicting Personal Next Location Based on Stay Point Feature Extraction[J]. Geomatics and Information Science of Wuhan University, 2020, 45(12): 1970-1980. doi: 10.13203/j.whugis20200068
  • 随着全球定位系统(global positioning system,GPS)和Wi-Fi等定位技术的发展,海量基于智能交通系统、社交网络和移动通信的高精度个体出行轨迹数据被大量收集。时空轨迹数据是移动对象位置和时间的记录序列,它不仅包含了丰富的时空位置信息,而且体现了人类的活动规律和出行模式。近年来,移动互联网的市场潜力逐渐被挖掘,轨迹数据催生了各种基于位置的服务(location-based service,LBS)。如何挖掘用户时空轨迹数据中隐含的信息,进而预测用户未来的轨迹位置,是优化位置服务的重要问题。用户位置的预测可帮助人类更好地理解个体与人群的移动规律,为传染病防控、交通疏导、公共安全等城市智慧管理和位置服务提供主要依据[1-2]

    有关人类移动模式的可预测性理论研究已取得重要进展[3],结果显示,人类空间移动行为在一定的空间尺度上具有高度的规律性和可预测性[4-6]。相关研究开始对人类群体的移动进行预测[7-8]。个人位置预测方法方面,预测模型[9-11]主要有基于各种移动模式的模型[12-14]、马尔可夫模型[15-17]和深度学习模型(如循环神经网络(recursive neural network,RNN)/长短期记忆神经网络(long short-term memory,LSTM)[18-21])。然而,以上方法着重关注历史空间特征,且个体位置与出行还受其他特征影响(如天气、时间等) [22]。由于用户位置其他特征的缺失,基于模式的方法不能很好地反映个体的移动规律,而使用马尔可夫模型建立多特征模型往往会导致高复杂度[23]。同时,用户的位置很容易改变,所以很难用线性函数来描述运动规律。因此,在非线性数据的曲线拟合中表现良好[24]的RNN可用于刻画出行模式和预测。然而,RNN具有难以处理长期历史依赖关系的问题。为此,人们提出了一种可用于学习长序列信息的RNN的变种神经网络LSTM[25],LSTM在非线性序列预测任务中表现出色[26],但当前方法在挖掘个人历史轨迹的同时,对于个人在不同停留位置的特征信息(停留位置进入/离开时间、停留位置天气、停留位置所在地土地利用)挖掘不够充分。本文提出一种顾及停留位置特征提取的个人位置预测模型,以提升个人位置预测精度。

    • 顾及停留位置特征的个人位置预测模型框架如图 1所示。步骤如下:①模型构建LSTM神经网络所需要的序列输入预测链路,它由历史轨迹链路-停留位置链路-聚类链路逐步转化而来。首先按时间顺序将每个用户的轨迹点数据连成历史轨迹链路,再进行停留位置发现以构建停留位置链路,然后对停留位置链路进行空间聚类形成聚类链路,最后将聚类链路作为预测链路代入LSTM预测模型的输入层。②通过特征提取层提取停留位置的时间、天气和土地特征,提取聚类的空间位置特征,以构建预测模型中的LSTM层。③在模型的输出层,根据训练好的模型和历史已知位置进行未来位置的预测。

      图  1  预测模型框架

      Figure 1.  Framework of Prediction Model

    • 作为一种重要的时空对象数据类型,时空轨迹的应用涉及到地理学、生物学、化学、气象学等多个方面。时空轨迹代表了一系列GPS点,每个点包含经度(pi.Lng)、纬度(pi.Lat)和时间戳(pi.T)。将连续的时空轨迹位置点按照时间顺序相连,可以构建用户的历史轨迹链路。

    • 原始的轨迹数据往往是不规则的、未分类的。为了挖掘位置信息的规律性,发现其中隐藏的知识,通常需要提取停留位置[27]。停留位置表示用户待了一段时间并进行一些活动的地理区域,可以用时间阈值θt和距离阈值θd表示。通常,一个停留位置可以被看作是一些连续GPS点构成的虚拟位置P={pmpm+1pn},其中:

      $$ {\rm{Distance}}\left( {{p^m}, {p^i}} \right) < {\theta _d}, m \le i \le n $$ (1)
      $$ |{p^n}.T - {p^m}.T| \le {\theta _t} $$ (2)

      基于Pθdθt,停留位置s=(Lng,Lat,entryT,departureT),计算公式如下:

      $$ s.{\rm{Lng}} = \mathop \sum \limits_{i = m}^n {p^i}.{\rm{Lng}}/\left| P \right| $$ (3)
      $$ s.{\rm{Lat}} = \mathop \sum \limits_{i = m}^n {p^i}.{\rm{Lat}}/\left| P \right| $$ (4)
      $$ s.{\rm{entry}}T = {p^m}.T $$ (5)
      $$ s.{\rm{departure}}T = {p^n}.T $$ (6)

      式中,s.Lng和s.Lat代表GPS点集合P的平均经度和平均纬度; s.entryTs.departureT代表用户在s上的进入和离开时间。

      本文使用文献[28]提出的基于时间阈值和距离阈值的停留位置提取算法,从用户的GPS轨迹自动检测停留位置,并将历史轨迹链路转化为停留位置链路。如果一个人在200 m的距离范围内停留超过20 min,本文实验就会检测到一个停留位置[29]

      一般现实生活产生停留位置的情况有两种。第一种情况如图 2(a)s_1,当一个人在一段时间内静止不动,并且这段时间超过时间阈值时,停留位置出现在p_3。这种情况一般发生在人们进入某个建筑物,比如访问一个购物中心,并在一段时间内失去卫星信号,直到回到户外。

      第二种情况如图 2(b)s_2和图 2(c)s_3,用户在某个空间区域内徘徊一段时间,在该区域花的时间超过某个阈值,此时该空间区域包含了多个GPS点(p_1~ p_8)。这一般是人们在户外散步或者旅行时被某些东西吸引而产生的。如漫步在海滩边,或被地标性建筑所吸引。与原始的GPS点相比,每个停留位置都有特定的语义含义,如工作/生活的地方、去的商场、参观的景点。

      图  2  停留位置的产生

      Figure 2.  Generation of Stay Points

      相对原始轨迹链路,停留位置链路的构建有两个重要优化:①如果直接对原始GPS轨迹点进行密度聚类,可能会丢失一些重要地点,比如餐馆和购物中心。由于GPS设备在室内会丢失卫星信号,导致在这些地方收集的GPS点很少(如图 2(a)s_1),因此GPS点的密度无法满足聚类条件。②相反,在某些区域,例如用户反复通过的道路交叉口,由于GPS点密度较大,因此容易形成一个没有语义含义的聚类(图 3)[25]

      图  3  聚类过程检测出没有语义含义的地点

      Figure 3.  Some Places Without Semantic Meanings may be Detected by Clustering

    • 聚类链路构建步骤对停留位置进行空间聚类,进而将停留位置链路转化为聚类链路。空间聚类可对具有相同语义和相近距离的不同停留位置进行聚合(如图 4中聚类c_1、c_2和c_3)。本模型使用基于密度的DBSCAN(density-based spatial clustering of applications with noise)算法[30]进行聚类链路构建。与k-means[31]等聚类方法相比,基于密度的方法能够减少数据分布不均衡的影响,并且能检测出非凸的不规则聚类,这些聚类可能代表附近的一组餐馆或旅游景点。因此,本模型将所有用户提取出来的停留位置放到一个新的数据集S,并引入DBSCAN算法对数据集S进行聚类,即根据停留位置之间的密度连通性关系进行聚类,将核心点周围满足密度阈值条件的停留位置分配到同一个聚类中,而将不满足条件的停留位置视作噪声点。

      图  4  聚类的构建过程

      Figure 4.  Construction Process of Clusters

    • 位置预测模型在经典LSTM神经网络的基础上,引入预测链路与用户停留位置的不同特征,实现用户位置的预测。使用LSTM的4层预测框架构如图 5所示。

      图  5  使用LSTM的4层预测框架

      Figure 5.  Four-Layer Prediction Framework Using LSTM Model

      1) 输入层。输入层实现实时预测链路数据和停留位置特征数据的对接,为预测模型提供基础数据。

      2) 特征层。在特征层中,位置发现步骤包含了停留位置提取和空间聚类,之后使用聚类编号来表示空间特征。为了提取时间特征,根据时间间隔将1 d中的时间划分为多个区间,并且用区间编号进行标记。如果时间间隔为10 min,则1 h可以划分为6个区间,1 d可以划分为144个区间。分区后,可以使用数字0~143来标记每个区间,并使用式(7)~(8)来映射得到停留位置的进入时间特征和离开时间特征分别对应的区间编号eID和dID:

      $${\rm{eID}} = {\rm{Round}}\left( {\frac{{{\rm{entry}}T - {\rm{zero}}T}}{{{\rm{time}}\;{\rm{int}}}}} \right)$$ (7)
      $${\rm{dID}} = {\rm{Round}}\left( {\frac{{{\rm{departure}}T - {\rm{zero}}T}}{{{\rm{time}}\;{\rm{int}}}}} \right)$$ (8)

      式中,zeroT表示一天零点时间; Round()是取整函数; time int表示时间间隔。每个段都填充了在该时间间隔内进入或离开的位置。

      图 6显示了将时间间隔设置为2 h的例子。为了提取天气特征,根据地理位置所在的城市和日期查询天气状况。轨迹获取的时间范围内有3种不同的天气条件,即晴天、多云和雨天。因此,用户在一个位置的天气特征可以用数字0~2表示。为了提取土地利用特征,将用户轨迹活动范围内的土地利用情况分为7个类别,相关用地和建筑类型如表 1所示,进而将停留位置的土地特征用数字0~6表示。

      图  6  设置2 h时间间隔的特征提取例子

      Figure 6.  Example of the Two-hour Interval-Based Feature Extraction

      表 1  土地利用性质分类表

      Table 1.  Classification of Land Use

      分类 相关用地或建筑类型
      居家 住宅
      工作 办公
      上学 学校
      休闲娱乐 公园、绿地、景点等
      购物 商业
      交通 机场等大型交通枢纽
      其他 其他

      之后,使用one-hot编码将空间、时间、天气和土地特征表示为特征向量。如使用三位状态来标记晴天、多云和阴天这3种天气状态,分别是001、010和100。将每个位置的多个特征向量按照“空间-进入时间-离开时间-天气-土地”的顺序整合到一起,合并为单个n维特征向量。

      3) LSTM层。在将每个位置转换为特征向量后,开始训练预测模型。使用LSTM模型预测下一个值需要将每个序列划分为固定长度的片段,而不是直接将向量放入LSTM模型。首先应该确定具体的长度值,称为时间步长。然后使用滑动窗口扫描位置序列,注意窗口长度等于时间步长。滑动窗口每次向前移动一个位置,直至到达位置序列的末尾。每次移动都将窗口中的位置序列分割为一个片段,作为训练特征,并将窗口外最近的下一个位置作为标签。图 7是将时间步长设置为3的示例。最后,带有特征和标签的片段可以用来训练LSTM预测模型。

      图  7  时间步长为3的滑动窗口

      Figure 7.  Sliding Window While Time Step is 3

      4) 输出层。在最终的输出层利用测试集和LSTM层训练得到的预测模型来预测个人位置。

    • 本文使用的GPS轨迹数据收集自中国深圳市的9 289名志愿者。数据集记录了志愿者广泛的室内与户外活动,不仅包含了上班或回家的日常生活轨迹,还包含了志愿者进行娱乐运动等活动的轨迹。GPS坐标点每5 min记录一次,时间范围为2018-12-05—2018-12-28,共24 d。GPS点总数达到3 624 583个,GPS点总距离超过2 263 136 km。图 8显示了每天的GPS点数和志愿者人数的分布。

      图  8  GPS点数和志愿者人数的分布

      Figure 8.  Distribution of the Number of GPS Points and the Number of Volunteers

    • 本文算法使用Java和Python3.6实现(使用“Keras”包运行LSTM模型)。由于现实中无法选定一个固定大小的区域限制,只能使用一个比较合适的地理大小范围来指定用户的每一次停留。因此,实验将距离阈值设置为200 m,时间阈值设置为20 min。这两个阈值来源于现实世界的常识知识,可以覆盖咖啡馆、餐馆和购物中心等人们活动时间较长的位置,而十字路口和公共汽车站等短时间活动位置不在本文的位置提取和位置预测范围内。通过设置这两个阈值,最终得到了9 261条由停留位置表示的轨迹,其中包含356 472个停留位置。图 9显示了具有不同停留位置数量的志愿者人数。

      图  9  不同停留位置数量的志愿者人数

      Figure 9.  Number of Volunteers with the Different Number of Stay Points

    • DBSCAN算法中最小包含点数MinPts参数设置为5。图 10表明,聚类数量随着Eps的增加而减少,但减少的幅度逐渐减小。当Eps为160时,聚类数相对稳定。因此,邻域半径Eps参数设置为160 m。聚类后有9 256条轨迹,1 267个聚类。

      图  10  当MinPts设置为5时不同Eps值的聚类个数

      Figure 10.  Number of Clusters with Different Eps Values when the MinPts Set to 5

    • 本实验中,每个用户的轨迹数据按时间顺序连成一条历史轨迹链路。在停留位置提取完成后,使用停留位置来表示个体的轨迹点,将每个用户的历史轨迹链路转化为停留位置链路。聚类完成后,实验用停留位置所在的聚类编号替换停留位置链路中的停留位置,进而将停留位置链路转化为聚类链路,进一步提取空间位置特征。考虑到天气状况和土地利用对位置选择的影响,使用3种不同的天气条件和7种不同的土地类别来分别提取天气和土地特征。首先将时间间隔设置为30 min以提取时间特征,然后使用70%的数据作为训练集来训练预测模型,20%的数据作为验证集进行模型调参,剩下10%的数据作为测试集,比较模型的性能。

      为了探索本文数据适用的参数组合,实验采用多种组合对模型进行训练,并在验证集上计算预测准确率,进一步得到最优的预测模型。预测准确率定义为:

      $${\rm{Accuracy}} = \frac{{{\rm{Correct}}}}{{{\rm{Correct}} + {\rm{Wrong}}}}$$ (9)

      式中,Correct表示位置预测结果正确的个数; Wrong表示预测结果错误的个数。

      由于位置预测问题的预测对象是一个位置,并且可选的类别数目超过2个,因此可以定义为多分类问题。基于此,分别采用分类交叉熵函数和多分类准确率作为损失函数和评价指标,在分类器的输出中选择Softmax作为激活函数。

      实验首先进行第一次调参:学习率通常被认为是神经网络中最重要的超参数,使用对数尺度来均匀地取0.001~0.090之间的值。实验采用3种梯度下降优化算法,即Momentum算法、RMSprop算法和Adam算法来更新权重和最小化损失函数。批处理大小定义了每次迭代训练所选取的样本数,这将影响模型的计算速度和收敛效果。为了加快运行时间,根据2的幂次方设置了4个大小,分别为16、32、64和128。先将迭代周期数(epochs)和隐层神经元个数(rnn_unit)分别设为50和12来训练LSTM模型。为了避免过拟合,将每个层的“dropout”设置为0.2。表 2的模型参数设置表列出了LSTM模型各个参数的描述以及取值。表 3列出了不同学习率下验证集上的预测准确率,当学习率为0.001,batch size为64,使用Adam算法时,LSTM模型的性能最好,达到73.1%。

      表 2  模型参数设置表(第一次调参)

      Table 2.  Parameter Setting of LSTM Model (the First Parameter Regulation)

      参数 描述 取值
      学习率 用于控制模型的学习速率 0.001
      梯度下降优化算法 用于更新权重和最小化损失函数 Adam算法
      批处理大小 指定每次迭代训练的样本数 64
      迭代周期数 指定整个大样本迭代的轮次 30
      隐层神经元个数 指定隐层神经元的个数 9

      表 3  不同学习率下验证集上的预测准确率(第一次调参)

      Table 3.  The Prediction Accuracy of Different Parameter Combinations on Verification Set (the First Parameter Regulation)

      batch size 算法 学习率
      0.001 0.003 0.005 0.007 0.009 0.01 0.03 0.05 0.07 0.09
      16 Momentum 0.693 0.723 0.725 0.726 0.727 0.727 0.727 0.727 0.726 0.721
      RMSprop 0.702 0.703 0.702 0.706 0.702 0.703 0.707 0.696 0.708 0.702
      Adam 0.728 0.724 0.721 0.719 0.718 0.718 0.716 0.719 0.715 0.711
      32 Momentum 0.685 0.702 0.716 0.722 0.725 0.722 0.727 0.727 0.727 0.725
      RMSprop 0.723 0.723 0.722 0.721 0.721 0.721 0.719 0.714 0.716 0.711
      Adam 0.728 0.725 0.721 0.719 0.717 0.717 0.712 0.715 0.715 0.715
      64 Momentum 0.663 0.686 0.697 0.705 0.706 0.711 0.726 0.727 0.727 0.728
      RMSprop 0.727 0.726 0.727 0.726 0.725 0.726 0.725 0.716 0.708 0.701
      Adam 0.731 0.726 0.723 0.721 0.717 0.719 0.711 0.714 0.717 0.716
      128 Momentum 0.615 0.682 0.686 0.692 0.696 0.701 0.721 0.727 0.727 0.727
      RMSprop 0.727 0.727 0.727 0.727 0.727 0.726 0.722 0.715 0.723 0.715
      Adam 0.728 0.726 0.724 0.723 0.721 0.721 0.714 0.713 0.715 0.716

      接着使用上述参数组合进行第二次调参,进一步调整epochs和rnn_unit的值。表 4列出了不同迭代周期在验证集上的预测准确率,当epochs为30,rnn_unit为9时,LSTM模型已经达到第一次调参的最佳预测性能(73.1%)。因此下文使用该参数组合测试LSTM模型在测试集上的预测性能。

      表 4  不同迭代周期数在验证集上的预测准确率(第二次调参)

      Table 4.  Prediction Accuracy of Different Parameter Combinations on Verification Set(the Second Parameter Regulation)

      rnn_unit epochs
      10 20 30 40 50 60 70 80
      3 0.619 0.672 0.683 0.695 0.698 0.702 0.699 0.698
      6 0.704 0.722 0.726 0.728 0.728 0.728 0.729 0.730
      9 0.726 0.728 0.731 0.731 0.731 0.731 0.730 0.731
      12 0.728 0.728 0.731 0.731 0.731 0.731 0.730 0.731
      15 0.729 0.729 0.731 0.731 0.731 0.730 0.730 0.730
      18 0.729 0.729 0.730 0.731 0.731 0.730 0.729 0.729
    • 由于测试集和验证集来自同一个数据分布,可以使用测试集来测试使用验证集调参后的模型泛化能力。为了度量不同模型的性能,本文引入了3种分类问题的评价指标,包括精确率、召回率和F值。多分类问题是二分类问题的扩展。对于二分类问题,预测样本有4种情况,即TP(true positive,实际是正例,预测为正例)、TN(true negative,实际为负例,预测为负例)、FP(false positive,实际为负例,预测为正例)和FN(false negative,实际为正例,预测为负例)。3个评价指标精确率(P)、召回率(R)和F值的定义分别如下:

      $$P = \frac{{{\rm{TP}}}}{{{\rm{TP}} + {\rm{FP}}}} \times 100\% $$ (10)
      $$R = \frac{{{\rm{TP}}}}{{{\rm{TP}} + {\rm{FN}}}} \times 100\% $$ (11)
      $$F = \frac{{2PR}}{{P + R}} \times 100\% $$ (12)

      一般来说,对于多分类问题,可以把每一个类别看作正样本,把其他类别看作负样本。例如,如果用户的历史位置包含ABCD 4个不同的位置,对于即将预测的5个连续位置,原始位置序列为(AACCD),预测模型给出的结果序列为(ABACA)。对于位置A,有TP=1,FN=1,FP=2,TN=1,因此,位置A的精确率和召回率分别为66%和50%。在此基础上计算其他每个类别的精确率和召回率,最后得到两个平均值。此外,为了评估模型的整体性能,实验还计算了F值,它同时考虑了预测的精确率和召回率。

    • 在特征提取中需要确定时间间隔来标记每个停留位置的进入时间和离开时间特征。因此,时间间隔的设置与轨迹的采样频率有关,从而影响整个模型的预测性能。由于实验中每5 min采集一次GPS坐标点,所以本实验将时间间隔设置在5~60 min之间,通过3个分类问题的评估指标来检验模型的预测能力。

      结果显示,只利用空间特征的LSTM模型的预测精确率为64.9%,召回率为71.0%,F值为67.7%。加入天气特征后,3项指标分别提高到67.8%、72.9%和70.0%。天气特征的加入分别将3个指标提高了2.9%、1.9%和2.3%,说明天气因素在位置预测中存在作用,可提高LSTM模型的预测性能。从图 11中可以看到,同时使用了空间和天气特征之后,进一步提取时间特征有时能提高预测效果。当时间间隔设置为5 min时,3个预测指标均为最低,分别为65.6%、69.9%和67.5%,这比只使用空间特征和天气特征分别降低了2.2%、3.0%和2.5%。当时间间隔为35 min时,3个预测指标均达到最高值,分别为70.1%、74.8%和72.3%,比只使用空间特征分别提高了5.2%、3.8%和4.6%,比仅使用空间特征和天气特征分别提高了2.3%、1.9%和2.3%,说明了合适的时间间隔设置可以使LSTM模型更好地预测用户下一个位置。因此,实验将时间间隔设置为35 min,进一步将1 d的时间划分为42个区间。图 11显示,在“空间+天气+时间”的特征基础上进一步加入土地利用特征,有效地提高了各个时间间隔下的位置预测性能。在35 min的时间间隔下,3个位置预测指标达到最高值,分别为71.6%、76.2%和73.6%,比不使用土地利用特征时分别提高了1.8%、1.4%和1.5%,说明停留位置所在地的土地性质在一定程度上也会影响人们位置的选择。

      图  11  不同时间间隔的预测结果

      Figure 11.  Prediction Results with Different Time Interval

    • 传统的N阶马尔可夫(N-order Markov,NM)模型在位置预测中得到了广泛的应用。然而,相对较高的空间复杂度以及稀疏数据引起的零频率问题限制了它们的发展。为了解决这两个问题,研究人员提出了变阶马尔可夫模型,如部分匹配预测(prediction by partial matching,PPM)模型[13]。在此基础上,本文引入NM和PPM两种算法来比较本文提出的模型。

      图 12比较了在不同时间步长下NM模型、PPM模型和LSTM模型的位置预测精确率、召回率和F值。由于时间步长的增加意味着已知位置信息的增加,包含着更多的移动规律,因此步长较大的模型预测精确率高于步长较小的模型。从图 12可看出,3种模型的预测精确率最高分别为67.1%、68.6%和74.1%。同时可以看到,对任意n步模型(1≤n≤5),NM模型的预测精确率最低,而LSTM模型的预测精确率最高。3种模型的预测召回率最高分别为64.6%、72.5%和78.3%。对于PPM和LSTM模型,预测召回率随时间步长的增加而增加,这表明随着已知位置信息的增加,更多的位置被正确地预测到。然而,传统N阶马尔可夫模型仅当测试序列存在于训练序列中才返回结果,否则只返回空值。阶数越高,训练所需的数据越多,因此高阶NM模型的预测召回率更低。根据相关的精确率和召回率结果,可以自然地得到不同阶数下的预测F值。3种模型的预测F值最高分别为63.3%、70%和75.8%。结果表明,对于任意n步模型(1≤n≤5),LSTM模型的预测F值均高于NM模型和PPM模型,说明相比于其他两种马尔可夫模型,LSTM模型具有更好的预测性能。

      图  12  不同时间步长下不同模型的预测结果

      Figure 12.  Prediction Results of Different Models with Different Time Steps

    • 为了比较不同训练数据量对模型预测性能的影响,实验分别采用LSTM模型和PPM模型,对不同训练数据量的预测精确率、召回率和F值进行了评价。保持相同的测试数据集,随机抽取原始训练数据的20%、40%、60%、80%和100%,预测结果如图 13所示。可以看出,随着训练过程中使用更多的位置数据,LSTM模型和PPM模型的预测性能都得到了提高。当时间步长为5,使用20%训练数据时,LSTM模型的预测精确率、召回率和F值分别为65.6%、71.9%和68.7%,PPM模型则分别为64.2%、70.2%和66.6%。当使用100%训练数据时,LSTM模型对应3个指标分别是74.1%、78.3%和75.8%,对比20%训练数据分别高出8.5%、6.4%和7.1%,而PPM模型对应3个指标分别是68.6%、72.5%和70.0%,对比20%训练数据分别高出4.4%、2.3%和3.4%,这反映了训练数据量的增加对两种模型的预测性能的提高都具有一定改善效果。同时可以看到,当训练数据量达到40%时,LSTM模型已经接近100%数据量的预测性能,而PPM模型则随着数据比例的增加,逐步接近100%的预测性能。

      图  13  不同训练数据量下不同模型的预测结果

      Figure 13.  Prediction Results of Different Models with Different Training Data Sizes

    • 图 11所示,与单个空间特征相比,天气特征的增加提高了下一位置的可预测性,取得了更好的预测效果。因为个体下一个地点的选择有时取决于天气,所以加入天气特征是合理的。理论上,考虑了停留位置的进入时间和离开时间而加入时间特征,可以使预测模型更加准确。然而,并非所有的设置都能获得正面的效果,如直接引入一个不适当的时间间隔容易导致预测性能下降。因此,时间特征的时间间隔设置具有重要意义。通过使用停留位置所在地的土地利用特征,从土地性质的角度挖掘用户位置移动的行为规律,可以更好地进行位置的预测。另一方面,在数据量足够的情况下,与NM模型和PPM模型相比,LSTM模型具有更好的预测性能,表明了LSTM算法在位置预测问题中的有效性,进一步验证了时间和天气特征的影响。训练数据量的敏感性测试结果表明,两种模型对训练数据量的依赖性不同,LSTM模型在较低的数据量时可以很好地进行位置预测,而PPM模型则需要更高比例的训练数据量才能达到最佳预测效果。

      然而,LSTM算法也存在一些不足。首先,参数的选择对训练效果有很大的影响,因此需要多次尝试才能得到最佳的参数组合。其次,在训练过程中,很难知道每层神经网络都提取了哪些具体特征。另外,LSTM的迭代计算对硬件要求较高,需要高效的GPU或CPU以支持其矩阵运算。相比之下,由于使用了字典树结构和逃逸机制,PPM模型可以很好地解决高空间复杂度和零频率的问题,减少了预测模型的运行时间。同时,本文设计的LSTM位置预测模型仍需与近年提出的一系列其他深度学习位置预测模型进行进一步的性能测试与评估,模型的其他改进空间仍需进一步挖掘。最后,对于位置预测问题,将其定义为多分类问题,导致了下一个位置的预测结果只能从历史位置训练序列中选择,这是本文的局限性。然而,本文实验训练集中包含了整个群体轨迹,而不是单一的个体轨迹。对于某个个体来说,模型可以预测到一个本人未曾访问过的位置区域。理论上,只要群体轨迹数据基数足够大,覆盖面足够广,仍然可以提取出较为合理的停留位置覆盖区域。本次实验中,GPS点总数达到3 624 583个,GPS点总距离超过2 263 136 km,轨迹范围覆盖了深圳市10个区大部分人类活动区域,可以近似地认为实验是一个相对比较完整的位置合集,可以尽可能地减少预测未知位置的影响。

    • 本文提出了顾及停留位置特征的个人位置预测模型,并通过实验验证了时间和天气特征的影响。实验结果表明,通过用户停留位置特征的引入,预测模型得到了6.6%的位置预测精度增益。相对传统NM和PPM位置预测模型,本模型的位置预测精度分别提升为7.0%和5.5%。未来工作将区分出不同出行时间的用户轨迹,建立不同日期的位置预测模型,以研究不同时间点下人们出行的规律以及下一个位置的移动选择。

参考文献 (31)

目录

    /

    返回文章
    返回