-
摘要: 在当前地理信息系统应用中,人物信息的时空解读非常重要,有助于地理研究者生成多种类型的专题地图,实现相关地理内容的表达。在分析现有人物数据模型特点的基础上,结合地理应用需求和信息提取技术的发展现状,提出了一种突出人物时空特征的经历信息模型。以网络百科数据为例,实现了模型中各要素的提取,有效解决了事件描述识别和位置信息提取两个重点问题。测试和分析结果表明,该事件描述的抽取方法具有较强的实用性,而位置信息提取方法在标注语料有限的情况下,也取得了一定的效果,得出了较好的实验结论。Abstract:Objectives In the field of human-related geographic information systems (GIS), the spatiotemporal analysis of character information has received increasingly more attention. It is important in that it helps GIS users to generate various thematic maps and achieve the visualization of human geographic content. For adaptation to the development direction of GIS intellectualization, it is of great significance to combine GIS requirements with natural language processing (NLP) methods and build a character information model.Methods Firstly, we expound the research status of character information models in GIS and NLP and put forward the concept of life-track, which is mainly composed of a series of character event mentions. Secondly, considering the feasibility of the existing information extraction methods, a conceptual character life-track information model is determined. This model focuses on event information to highlight character spatiotemporal elements and also includes character attribute and relationship information. Finally, a complete information extraction process is designed for the model with online character encyclopedia pages as the data source. This paper focuses on two sub-tasks in the process: One is to use time features and OpenHowNet semantic calculations to identify event mentions, and the other is to use linguistics features and the conditional random field (CRF) model to extract location information.Results Experiment results show that the method of event mention identification has an accuracy of 91.8%. Although the average F1 value of location information extraction is only 78% under the condition of a limited labeling corpus, some valuable experimental conclusions have been obtained by analyzing the weight of the transmit matrix of the CRF model: (1) The location phrase and its adjacent words have obvious characteristic effects. (2) The dependency syntactic parsing and the relative position of the word in the sentence have little influence on the extraction. (3) The target of location information extraction is the place where the event occurred, but in a few cases, some location phrases are irrelevant to the location of the event. This is the main reason for the low accuracy.Conclusions Combining GIS with NLP, intelligent GIS development will be promising. The character life-track information model provides an example of the large-scale use of ubiquitous internet information. Improving methods applied in the extraction process and applying those methods to more online text types are the focus of our team's subsequent research.
-
作为虚拟地理环境(virtual geographic environment, VGE)的重要组成部分[1-2],三维建筑物模型在城市规划、三维导航、灾害管理、水利水电等领域都有着广泛的应用[3-8]。与其他三维模型相比,三维建筑物模型通常具有更大的数据量和更复杂的几何结构特征[9-10]。虽然近年来计算机硬件性能飞速提升,但大规模三维场景的实时流畅渲染仍面临着巨大挑战[11]。如何在保证建筑物模型外观视觉效果的前提下对模型进行简化,在可视化时根据视距选择合适的细节层次模型(level of detail, LoD)加载[12],减轻计算机的渲染压力,仍然是亟待解决的问题[13]。
流形网格中图元拓扑关系简单,不存在悬挂点、悬挂边和悬挂面。计算机图形学领域提出的通用三维模型简化方法能在流形网格模型上取得较好的简化结果。但三维建筑物模型中存在大量非流形结构(如多个建筑物部件粘合在一起共享一条边),且具有严格的几何约束(如模型要素之间的平行、垂直、共面等特征约束)[14-16]和复杂的语义信息(如不同要素的属性、关系等)[17],将通用简化方法直接应用到三维建筑物模型上时,可能会破坏模型固有的几何约束,从而严重破坏建筑物的外观[18]。如果简化过程中未考虑建筑物语义信息,可能造成简化前后模型语义信息不一致。本文归纳了三维建筑物模型简化研究的进展情况,讨论了三维建筑物模型简化研究的潜在方向。
1 通用三维模型简化方法
通用三维模型简化方法通过对模型中的点、线、面等几何图元进行删除、合并等操作减少模型数据量,根据操作方式和图元对象的不同可分为顶点删除、边折叠、三角形折叠、顶点聚类4种。顶点删除算法和三角形折叠算法对建筑物简化效果较差,故只介绍边折叠算法和顶点聚类算法。
1.1 边折叠算法
边折叠算法由Hoppe等[19]提出,其原理是将构成一条边的两个顶点合并成一个顶点,从而删除该条边相邻的两个三角形。边折叠的逆操作为顶点分裂,即将折叠后的顶点还原为原来的边。如图 1所示,折叠边(vu,vt)到vs,将顶点vu和vt移动到vs处,并将退化的三角形fl和fr删除,还原时根据边折叠记录将三角形fl和fr重新恢复。基于边折叠和顶点分裂,Hoppe又提出了渐进网格模型[20]及基于视点的渐进网格算法[21],现已被广泛应用于地形等流形网格的连续LoD模型中。H边折叠算法在选择要折叠哪条边时需构建一个全局的能量函数来度量边折叠误差,效率很低。Garland等[22]提出了一种基于二次误差度量(quadric error metric, QEM)的简化算法,大幅提高了简化效率,成为目前使用最广泛的网格简化方法。后人在QEM算法的基础上考虑互信息、曲率等因素,提出了多种新的误差函数来提高QEM算法的简化质量[23-27]。
1.2 顶点聚类算法
顶点聚类算法首先对网格进行空间聚类,再通过合并同一聚类中的顶点来简化网格。简化过程中,每个聚类中的顶点被聚类中权重最大的代表顶点代替,再由代表顶点拓扑重构形成简化的模型,具体过程如图 2所示。该方法由Rossignac等[28]提出,但此方法对细节分布不均匀的模型进行了均匀简化,可能破坏顶点间拓扑关系,造成模型的局部过度简化。针对此,Low和Tan[29]提出了单元浮动聚类算法,有效解决了此问题;Luebke等[30]提出的八叉树自适应划分的方式划分空间取得了更好的效果。
当简化率较高时,由于没有考虑建筑物的几何约束和拓扑关系,上述两种方法在大面积图元的删除或合并时会造成建筑物坍塌和建筑物构件间拓扑关系破坏,严重影响模型外观,如图 3所示。如使用边折叠算法,在简化率较高时会出现图 3(b)结果。同时,由于模型在图元层面大多未携带语义信息,简化后模型往往和原模型语义不一致(如两种不同材质属性的要素合并后,新要素和原模型材质信息不一致)。这严重影响可视化效果和三维分析的准确性,极大限制了三维建筑物的应用。
2 三维建筑物模型简化方法
2.1 面向几何特征的简化
2.1.1 基于投影特征的简化
该方法的基本思想是先将三维模型投影到二维平面得到模型的投影轮廓线,使用二维制图综合技术对轮廓线简化综合后,再将简化综合结果恢复为三维模型。最常见的方法是将建筑物自上而下投影得到建筑物基底,对基底简化后拉伸并叠加屋顶得到简化结果。研究初期主要关注单栋建筑物墙体轮廓的简化,常见做法是在基底各边平行垂直等几何约束的限制下,移除基底中较短的边以消除墙体中小的凸起或凹陷[31-32]。由于简化过程中没有考虑屋顶,基底拉伸后可能出现墙体和屋顶不匹配的情况,可通过引入屋顶与基底的相交测试来修正模型解决[33],但仅限于屋顶结构简单的建筑物。除自上而下投影外,有学者参考计算机自动制图领域的简化方法,将模型同时投影到3个平面上得到模型的三视图,对三视图简化综合后再恢复模型[34],但建筑物表面通常有多层复杂装饰结构,投影后简化综合难度较大。
基于投影特征的简化方法多用在大规模城市场景建筑群的可视化中。通过不断综合建筑物基底,并对综合结果使用树状结构组织,在场景漫游时根据用户视点到模型的距离加载树中合适的模型,提高渲染效率[35-37]。一般来说,综合过程中距离较近的建筑物应优先合并,故通常先对建筑物中心点Delaunay三角化,根据距离建立建筑物间的联系。在综合时只合并三角网相连的建筑物[38-39]。为保留建筑物轮廓的显著性特征,常将地图综合中的删除、夸大等操作应用到基底的综合中[40]。
2.1.2 符号化表达
地图符号是可视化表达地理环境的基本手段。虽然VGE强调真实感表达,但出于渲染效率的考虑,也会适当对复杂三维建筑物模型进行符号化表达[41-42]。符号化的基础是对现有建筑物进行特征归纳总结后得到有限数量的模板。为了方便,一般将建筑物的基底和屋顶分开归纳,如图 4所示,可将常见的现代城市建筑物基底分为方型、L字型、T字型等类型,屋顶分为金字塔型、山墙型、A字型等类型[40]。分类归纳后,需通过计算实际模型与模板间的相似程度来选择匹配的三维符号。基底匹配中,常利用最小二乘法求解与原始复杂模型基底最接近的3D模板[43-44]。屋顶可划分为多个单元,通过解析每个单元内的屋顶结构,利用预生成的多个屋顶模板与屋顶结构进行匹配,选择最佳匹配模板并调整模板的几何参数(屋脊、屋檐高度等)以代替原模型[45-46]。匹配后的模型只能保持少量显著特征,精确识别建筑物时出现困难,故在导航领域通常在综合考虑建筑物的局部和全局显著性的基础上[47],将显著性高的建筑物精细显示,显著性低的建筑物用简单模板代替[48-49],以清晰显示道路及周边建筑物轮廓,方便用户快速定位当前位置。
2.1.3 结构特征的简化
建筑物是一种人工建构对象,其中存在大量的典型结构特征,通过结构提取,以结构为单位进行简化,符合建筑物的建造规律,更容易精细控制建筑物的局部简化,处理结构间的拓扑关系。基于结构特征的简化分为结构特征的定义、提取、简化3步。目前,结构特征没有统一的标准和定义,从宏观尺度上可分为主体结构和细节结构[50]。微观尺度上可根据结构在建筑物中的凸起、凹陷等特征分为凸起结构和凹陷结构[45],也可根据结构间的几何拓扑关系分为连接结构、组合结构等[51]。不同的结构特征定义会得到不同的结构提取结果,可能造成简化结果的不一致。
主体结构提取最常用的方法是三维模型切割。利用模型中图元的倾角、面积等几何特征识别出切割面[45, 52]或切割环[53]后,用切割面或切割环切割原建筑物模型,即可得到建筑物的主体结构及一系列凸起凹陷等细节结构,将这些结构存储在构造实体几何(constructive solid geometry, CSG)树中[54],在可视化过程中可利用树的深度控制LoD层次。三维模型切割方法仅适用于表面平整、结构简单的建筑物,结构复杂的建筑物(如中国古建筑)的结构特征,要根据模型几何特征,通过模型框线及图搜索等特定的几何分析方法提取[51, 55]。
在此基础上,根据显著性和重要程度不断移除模型细节结构[56],可得到简化的模型。结构移除产生的孔洞和缝隙,需通过对边界节点重新三角化修补。模型中小的凸起和凹陷结构也可参考二维图像处理中的形态学操作方法,用扩展到三维的形态学操作中的膨胀和腐蚀操作消除[57]。
2.2 多因素约束下的简化
简化的基本前提是不破坏用户的理解和感知。除几何信息外,三维建筑物模型还包含复杂的纹理和丰富的语义信息,这都是影响用户理解和感知的重要方面,不考虑这些因素而单纯进行几何简化的方法是存在缺陷的。部分研究尝试对几何简化从纹理、语义及用户理解感知多个方面进行约束,以期取得更好的效果。
2.2.1 纹理约束
纹理作为三维建筑物模型中的重要组成部分,可显著增加模型的细节和真实感,越来越多的研究开始在简化过程中考虑纹理因素。在网格层面对模型简化时,顶点位置的变化会带动多边形纹理映射位置的变化,可能造成纹理变形或扭曲,此问题可通过计算简化误差度量时综合考虑几何误差和纹理误差缓解[58-60]。基于基底和结构特征的简化中,由于涉及到大量细节结构的移除或合并,需生成多个纹理供不同层次的简化模型使用[18, 61],但由于纹理的复杂性,多级纹理的组织和自动化生成目前仍没有令人满意的解决方案。基于符号的简化模型与原模型几何结构相差较大,一般直接用模型的主颜色代替纹理。
纹理在一定程度上可反映模型的属性特征,如同种颜色的建筑物要素更容易被认为是同类要素。在建筑物类型数据缺乏时,纹理也能作为建筑物要素合并中的考虑因素[60, 62]。
2.2.2 语义约束
建筑物中包含了丰富的语义信息,早期三维建筑物简化研究主要关注模型的几何特征,而对建筑物模型的语义信息有所忽视。目前应用最广泛的两种建筑物语义标准为用于建筑工程领域的工业基础类(industry foundation classes,IFC)[63]和用于地理信息领域的城市地理标记语言(city geography markup language, CityGML)[64-65]。语义信息中能明确定义建筑物部件可作为建筑物结构特征分类的依据。基于语义信息可快速提取出建筑物中的门窗、阳台等具有明确含义的功能结构[66],为基于结构特征的简化带来极大便利。在简化过程中涉及要素合并时,可令模型语义信息作为合并的条件,优先合并相同属性的基底[67-68]或结构[59],减少或防止不同语义类型要素的合并,保持简化前后的模型语义的一致性,但合并前后语义信息层级关系未保存,会给基于语义信息的查询带来困难。
2.2.3 用户理解及感知约束
仅通过几何确定的图元或结构重要性不一定能真实反映用户对建筑物的感知情况,故有学者从用户角度出发,用人类理解及感知指导三维建筑物简化。考虑感知的简化的基本原则是优先简化模型中不被人类感知的部分。由于目前三维模型的感知研究比较匮乏,通常先将三维模型转换为二维图像,在二维图像上根据人眼视觉系统(human visual system, HVS)确定感知信息[69-70]。考虑理解的简化更多应用在大规模城市建筑群基底的综合中,为保持综合后城市的易读性,需保留原城市中的道路、街区、地标建筑物等[71],此过程可引入认知心理学作为指导[72-74]。
3 讨论
3.1 简化方法的局限
三维建筑物模型的简化研究取得了一些成果,这些简化方法能在一定程度上保持模型的几何和拓扑约束,但均存在一定局限。基于投影特征的简化方法借鉴了二维平面制图综合的思想,可用于细节不是很丰富的建筑物(或已简化到一定程度、细节很少的建筑物模型)的简化,对结构复杂的建筑物效果不佳,且建筑物墙体与屋顶的无缝匹配、基底内部要素的简化等问题不能很好解决。三维建筑物的符号化表达需要预先构造三维模板,其简化效果直接受限于模板数量,往往应用于导航、三维旅游地图等较为简单的场景。建筑物结构特征的简化适用于单栋复杂建筑物,但目前三维建筑物的结构特征没有严格统一的标准,简化结果受结构特征定义的影响较大,在应用于大规模三维场景的简化时,更加面临效率低下的问题。
3.2 简化约束的挑战
在纹理、语义、用户理解及感知等因素的约束下,三维建筑物模型的简化质量可望显著提升。在当前简化方法中,纹理未随模型几何信息的变化进行相应调整,容易引起纹理的扭曲、变形、缺失等问题,且多层级复合纹理的自动生成仍面临极大困难。目前建筑物语义信息的具体内容没有明确标准,如何对建筑物进行完备的语义建模仍处于研究初期,语义信息数据采集、模型加工等多个方面的规范还需探索。此外,用户对三维模型的理解感知评价等方面的研究较为缺乏,如何判断对模型效果理解感知的一致性还是一个难题。这几个方面的困难都对简化过程中约束因素的实施带来了很大的挑战。
4 结语
三维建筑物的简化研究已形成了基于几何和多因素约束下的适用于不同应用场景、不同种类建筑物的多种简化方法,这些方法所生成的不同简化层次的建筑物模型在视觉上有关联性,但在几何、拓扑、语义等重要特征方面关联性不足,且层次间数据冗余很大,通常称之为离散LoD模型。离散LoD模型因其细分层次的不足以及层次间的关联不足,难以满足多种应用需求[75-76],在离散LoD模型上进行的三维空间分析(如视域因子分析、日照时长分析等)可能会导致不一样的结论[13, 77]。此外,由于离散LoD不同层次的建筑物模型外观形态差别较大,切换时有明显的“跳跃感”[78],漫游交互的视觉效果不够好。
有部分学者提出建筑物连续LoD模型的概念[79-81],其目标是使建筑物模型在LoD层次间保持建筑物的几何、拓扑、语义关联,并使不同细节层次模型上获得的三维空间分析结论具有较好的一致性,同时使得不同层级间的切换的视觉过渡更加平滑,减弱甚至消除离散LoD不可避免的视觉突变现象。连续LoD模型的相关理论和技术方法都需要更为深入的研究。连续LoD模型的生成对几何、拓扑、语义要素特征的综合优化选取带来了很大的困难,对简化过程中的特征保持、约束表达带来了更丰富的研究内容。
以连续LoD的构建为目标,研究更为完善的建筑物简化算法,是今后相当长时期内的一个挑战,其成功可望为虚拟地理环境可视化、三维空间分析等提供更好的技术支撑,为三维建筑物的应用开辟更广阔的天地。
-
表 1 位置信息提取结果
Table 1 Results of Location Information Extraction
类别 精准率(P) 召回率(R) F1值 PB 0.86 0.73 0.79 PI 0.78 0.73 0.75 PE 0.81 0.69 0.75 S 0.85 0.82 0.83 -
[1] 林珲, 张捷, 杨萍, 等. 空间综合人文学与社会科学研究进展[J]. 地球信息科学, 2006, 8 (2): 30-37 https://www.cnki.com.cn/Article/CJFDTOTAL-DQXX200602006.htm Lin Hui, Zhang Jie, Yang Ping, et al. Development on Spatially Integrated Humanities and Social Science[J]. Geo-Information Science, 2006, 8(2): 30-37 https://www.cnki.com.cn/Article/CJFDTOTAL-DQXX200602006.htm
[2] 李凡. GIS在历史、文化地理学研究中的应用及展望[J]. 地理与地理信息科学, 2008, 24(1): 21-26 https://www.cnki.com.cn/Article/CJFDTOTAL-DLGT200801007.htm Li Fan. Application and Perspective of GIS in Research on Historical Geography and Cultural Geography[J]. Geography and Geo-Information Science, 2008, 24(1): 21-26 https://www.cnki.com.cn/Article/CJFDTOTAL-DLGT200801007.htm
[3] Filatova E, Prager J. Tell me What You do and I'll Tell You What You Are: Learning Occupation-Related Activities for Biographies[C]// Human Language Technology and Empirical Methods in Natural Language Processing, Vancouver, British Colum bia, Canada, 2005
[4] Han Y J, Park S Y, Park S B, et al. Reconstruction of People Information Based on an Event Ontology [C]// International Conference on Natural Language Processing and Knowledge Engineering, Beijing, China, 2007
[5] 于满泉. 面向人物追踪的知识挖掘研究[D]. 北京: 中国科学院研究生院, 2006 Yu Manquan. Research on Knowledge Mining in Person Tracking[D]. Beijing: University of Chinese Academy of Sciences, 2006
[6] 温永宁, 闾国年, 陈旻, 等. 华夏家谱GIS的数据组织与系统架构[J]. 地球信息科学学报, 2010, 12(2): 2235-2241 https://www.cnki.com.cn/Article/CJFDTOTAL-DQXX201002014.htm Wen Yongning, Lü Guonian, Chen Min, et al. Data Organization and System Architecture of SinoFamily Tree GIS[J]. Journal of Geo-Information Science, 2010, 12(2): 2235-2241 https://www.cnki.com.cn/Article/CJFDTOTAL-DQXX201002014.htm
[7] 周丙锋, 周文业, 赵文吉. 中国历史地理数字化应用平台研究[J]. 测绘科学, 2008, 33(4): 199-202 doi: 10.3771/j.issn.1009-2307.2008.04.070 Zhou Bingfeng, Zhou Wenye, Zhao Wenji. Study on Digital Application Platform of Historical Geography[J]. Science of Surveying and Mapping, 2008, 33(4): 199-202 doi: 10.3771/j.issn.1009-2307.2008.04.070
[8] 胡迪, 闾国年, 江南, 等. 地理与历史双重视角下的历史GIS数据模型[J]. 地球信息科学学报, 2018, 20(6): 713-720 https://www.cnki.com.cn/Article/CJFDTOTAL-DQXX201806002.htm Hu Di, Lü Guonian, Jiang Nan, et al. Historical GIS Data Model Under Geographic and Historical Perspectives[J]. Journal of Geo-Information Science, 2018, 20(6): 713-720 https://www.cnki.com.cn/Article/CJFDTOTAL-DQXX201806002.htm
[9] 李凯, 王艳军. 基于WebGIS的历史人文地理信息系统设计与实现[J]. 地理空间信息, 2019, 17(3): 59-61 https://www.cnki.com.cn/Article/CJFDTOTAL-DXKJ201903019.htm Li Kai, Wang Yanjun. Design and Realization of Historical Human Geographical Information System Based on WebGIS[J]. Geospatial Information, 2019, 17(3): 59-61 https://www.cnki.com.cn/Article/CJFDTOTAL-DXKJ201903019.htm
[10] 赵锐. 基于人物角色事件的传记生成方法研究[D]. 大连: 大连理工大学, 2015 Zhao Rui. Research on Biography Generation Based on Events of Character Roles[D]. Dalian: Dalian University of Technology, 2015
[11] 王双. 时空叙事可视化理论与方法研究[D]. 郑州: 信息工程大学, 2017 Wang Shuang. Research on Theories and Methods of Spatial-Temporal Narrative Visualization[D]. Zhengzhou: Information Engineering University, 2017
[12] 金博, 史彦军, 滕弘飞. 基于语义理解的文本相似度算法[J]. 大连理工大学学报, 2005, 45(2): 291-297 doi: 10.3321/j.issn:1000-8608.2005.02.028 Jin Bo, Shi Yanjun, Teng Hongfei. Similarity Algorithm of Text Based on Semantic Understanding[J]. Journal of Dalian University of Technology, 2005, 45(2): 291-297 doi: 10.3321/j.issn:1000-8608.2005.02.028
[13] Vikas Y, Steven B. A Survey on Recent Advances in Named Entity Recognition from Deep Learning Models[C]// The 26th International Conference on Computational Linguistics, Santa Fe, USA, 2018
[14] 张祝玉, 任飞亮, 朱靖波. 基于条件随机场的中文命名实体识别特征比较研究[C]//第四届全国信息检索与内容安全学术会议, 北京, 2008 Zhang Zhuyu, Ren Feiliang, Zhu Jingbo. A Comparative Study of Features on CRF-Based Chinese Named Entity Recognition[C]// The 4th China National Conference on Information Retrieval and Content Security, Beijing, China, 2008
[15] 邬伦, 刘磊, 李浩然, 等. 基于条件随机场的中文地名识别方法[J]. 武汉大学学报·信息科学版, 2017, 42(2): 150-156 doi: 10.13203/j.whugis20141009 Wu Lun, Liu Lei, Li Haoran, et al. A Chinese Toponym Recognition Method Based on Conditional Random Field[J]. Geomatics and Information Science of Wuhan University, 2017, 42(2): 150 156 doi: 10.13203/j.whugis20141009
[16] 魏勇, 李鸿飞, 胡丹露, 等. 一种基于复合特征的中文地名识别方法[J]. 武汉大学学报·信息科学版, 2018, 43(1): 17-23 doi: 10.13203/j.whugis20150538 Wei Yong, Li Hongfei, Hu Danlu, et al. A Method of Chinese Place Name Recognition Based on Com posite Features[J]. Geomatics and Information Science of Wuhan University, 2018, 43(1): 17-23 doi: 10.13203/j.whugis20150538
-
期刊类型引用(1)
1. 杨亚斌,荆磊,徐梦龙,韩革命,邱隆君,吴新刚,郜晓亮,郝国江,孙诚业,张光之,苏振宁. 陆域重力勘探进展. 物探化探计算技术. 2022(06): 722-741 . 百度学术
其他类型引用(3)