-
遥感数据是空间信息的重要组成部分,是各种应用领域不可缺少的重要资源,现代遥感技术为人们带来不同图像特征的海量遥感数据[1-3],遥感数据的应用也日趋复杂。遥感数据服务所面临的关键问题之一就是如何更好地理解用户对于数据的需求[4-5],快速响应用户所需要的遥感数据。遥感数据需求文本是一种基于自然语言的遥感数据需求表达方式,对用户专业知识要求不高,易于普通用户使用[6]。对遥感数据需求文本的理解是快速响应用户的基础。
时间是遥感数据的本质属性,是遥感数据检索的常用条件,也是遥感数据需求的基本要素[6-7]。对遥感数据需求文本时间实体的识别与获取是第一步工作。时间实体的识别是自然语言处理中的基础工作,属于命名实体识别范畴[8-9]。国内外在时间命名实体识别方面所采用的方法主要有3类:规则方法[10-11]、统计模型方法[12-13]和混合方法[14]。
遥感数据需求文本时间实体获取后,还必须转化为计算机可理解的定量时间,才能实现遥感数据需求与遥感数据的数据体时间的映射,其体现为时间的语义计算或推理。1984年,Allen[15]首次提出了基于时间间隔的时间逻辑推导,使得时间关系的描述和推导更加合理和准确。汉语时间信息处理起步相对较晚,Li等[16]在汉语时间特性和英语时间系统已有研究成果的基础上,建立了相对完善的时间系统。胡广朋等[17]提出了利用事件的持续函数以及近似区间的概念来表示事件持续时间的方法。这些理论扩展了时间解析及推理的思路。本体理论出现以后,基于时间本体对时间信息进行解析和推理逐渐成为研究热点[18-21]。Zhang等[22]系统性地构建了用于语义网络的中文时间本体; 侯志伟等[23-24]对地学时间以及地质年代进行了本体构建,但只局限于通用地学时间的建模推理,并没有考虑到遥感应用领域的特殊性,不能应用于遥感领域的时间解析及推理。李铭等[25-26]在对遥感数据进行时空推理时,没有对时间的推理计算进行归类,只是从时间的加减和时间拓扑关系进行推理,没有从时间组成元素进行划分来对时间进行建模。
现有对遥感数据需求时间抽取和语义计算的研究还比较少,更多关注的是时间概念和特征分析,但只侧重于时间的获取或者推理方面,忽视了时间获取和语义计算的有机结合; 也没有考虑遥感数据需求的特殊性,不能处理遥感数据需求中的领域时间,如“春玉米估产” “春小麦生长期” “芒种”等领域词汇。
本文建立了集遥感数据需求文本的时间要素形式描述与语义计算一体的时间本体模型,并基于该本体通过规则方法进行时间实体的识别、抽取、语义计算,提高了遥感数据需求文本中时间解析的准确率和召回率。
-
通过对减灾、农业、林业、测绘4个领域的遥感数据需求文本进行分析,归纳出5种时间描述类型:绝对时间、相对时间、持续时间、频度时间、领域时间,如表 1所示。
表 1 时间描述类型示例
Table 1. Examples of Time Description Types
类型 说明 描述示例 绝对时间 能够在时间轴上直接定位的时间描述 2017年3月15日
2016年2月1日至5月20日
2017年第三季度相对时间 以绝对时间为基准,通过时间拓扑关系进行定位的时间描述 去年中秋节
上周一
上个月
过去两年持续时间 以某个时间点为原点,向前或向后连续的某个时间段 3月1日以前
2018年下半年至今
2016年一季度以来频度时间 表示周期的时间描述 三个月一次
每周一次
一个季度一次领域时间 一般为领域内的专有时间名词,包括:(1)公用专有时间,如节假日、节气、纪念日等; (2)遥感数据应用领域专有时间词,如“春小麦播种” “一季稻收获”等农业领域的专业词 春节
立春
春玉米时间描述类型没有绝对的边界,通常会以组合的形式出现,例如“2018年春玉米”就是一个绝对时间和领域时间混合的时间描述。
-
对时间短语要素进行细分可以获得其形式化组成。根据时间语义计算需求,抽象出5类时间组成元素:时间单位要素、时间单元要素、时间关系要素、领域时间要素、连接符要素。
1) 时间单位要素
遥感数据需求中的时间粒度一般精确到天即可,其时间单位主要有天单位、周单位、月单位、季度单位、季节单位和年单位,如表 2所示。
表 2 时间单位要素
Table 2. Timescale Elements
时间单位 定义 实例 天单位 天单位描述 号、日、天 周单位 周单位描述 星期、周、礼拜 月单位 月单位描述 月、月份 季度单位 季度单位描述 季度 季节单位 季节单位描述 季、季节 年单位 年单位描述 年 2) 时间单元要素
时间单元要素包括数字和对时间单位的修饰元素,按照时间单位的不同,可以分为季度修饰、天修饰、年修饰、月修饰和季节修饰,如表 3所示。
表 3 时间单元要素
Table 3. Time Unit Elements
时间单元要素 定义 实例 数字 描述时间的数量词,由阿拉伯数字和中文汉字组成 零、一、二、三、四、五、六、七、八、九、十、十一、十二、两、0~9 季度修饰 修饰季度的词 第一、第二、第三、第四、第1、第2、第3、第4 天修饰 描述天时间的词 晚上、晚、下午、中午、凌晨、早上、上午、早晨、中、傍晚、早、深夜 月修饰 对月进行修饰,具体为月的某一天 下旬、月末、月底、中下旬、月初、前半月、后半月、中下旬、中上旬 年修饰 对年的修饰,具体为年的某个月 下半年、年底、年中、年初、上半年、年终 季节修饰 对季节的修饰,季节固定的月日时间范围 冬天、夏、秋天、春、春天、夏天、秋、冬季、冬、秋季、夏季、春季 3) 时间关系要素
对时间拓扑关系描述的词汇,根据时间拓扑关系和要素所在的文本位置分为4个子类:两端修饰要素、当前修饰要素、前缀修饰要素和后缀修饰要素,如表 4所示。
表 4 时间关系要素
Table 4. Time Relationship Elements
时间关系要素 定义 实例 两端修饰 描述不精确的一段时间范围 左右、前后、上下 当前修饰 表示时间的准确词 现在、目前、现今、当前、当今 前缀修饰 描述时间的组成单位词,只是作为时间的单位元素 上个、本、下、下个、上、昨、次、今、明、去、前 后缀修饰 描述两个时间点的联系 至今、以来、以后、之后、后、之前、以前、近 4) 领域时间要素
领域时间要素主要用于描述跟领域相关的修饰词,具备可拓展性。常见的一些领域时间如节气、中国节日、国际节日等,如表 5所示。
表 5 领域时间要素
Table 5. Domain Time Elements
领域时间要素 定义 实例 节气 二十四节气的表示 大暑、惊蛰、小寒、芒种、小雪、…、秋分、立秋、雨水 节日 表示中国特有的法定节假日、传统节日等固定的时间 教师节、植树节、中秋节、建党节、劳动节、中秋节 农业 描述农业领域的特殊专有时间短语 春小麦、冬小麦、春玉米、早稻、中稻、晚稻、一季稻 5) 连接符要素
连接符要素用于两个或多个时间点描述之间的关联,如表 6所示。
表 6 连接符要素
Table 6. Connector Elements
要素 定义 实例 连接符 语义单元联系符号词 —、-、~、到、至、之间、/ -
遥感数据需求文本时间元素经过识别、抽取和语义计算之后,即转化为计算机时间。本文借鉴OWL(web ontology language)时间本体[18]作为遥感数据需求时间模型。
时间点和时间段是时间的两个基本组成。时间点是时间的最小组成,时间段是由两个时间点构成的时间区间。时间关系包括时间点与时间点、时间段与时间段、时间点与时间段之间的关系[24],分为相离、相等、相交、包含、相接5大类。每类关系又可按照时间类型和时间方向继续细分,例如两个时间段的相离可以分为早于、晚于、在……之间。
时间坐标系定义了时间参考基准,考虑到遥感系统和计算机时间系统的特点,因此本文使用计算机时间系统1970-01-01为时间原点,以s为最小时间尺度,以大于时间原点的方向为正方向。
-
遥感数据需求文本中的时间描述是自然语言,其实例无法枚举。因此,本文提出一种基于语义表示规则的实例填充方法,将时间描述实例添加到本体中。
语义表示规则是对一类自然语言描述的规则定义,由若干时间描述语义要素构成。正则表达式是对字符串操作的一种逻辑公式,用事先定义好的一些特定字符及这些特定字符的组合来组成一个规则字符串,表示了一种文本模式[27]。本文引入正则表达式对语义表示规则进行描述,使得其定义更加清晰和规范。例如,“2017年” “2018年” “2019年”可抽象为“(Num{2,4}) Year_Unit”的字符串规则,其中Num是时间单元要素中的数字,Year_Unit是时间单位中的年单位。
根据对遥感数据需求文本时间描述语义要素的分析,复杂的时间描述可以拆分为若干时间单元。因此,语义表示规则之间可以相互嵌套,由简单的描述构成复合、复杂的时间描述,语义表示规则的定义也从原子、简单的定义逐步构建成复合、复杂的定义。部分语义表示规则如表 7所示。
表 7 时间描述语义表示规则示例
Table 7. Examples of Time Description Semantic Representation Rule
规则名称 规则标识 规则表达式 规则内容示例 所属类 年时间 Tyear (Num{2, 4}) Year_Unit 2016年 时间单元 月时间 Tmonth (Num{1, 2}) Month_Unit 5月 时间单元 日时间 Tday (Num{1, 2}) Day_Unit 3号 时间单元 年月日时间 Tdate Tyear Tmonth Tday 2018年3月1日 绝对时间描述 时间段 Timespan1 Tdate Connection Tdate 2018年3月1日至2018年4月1日 绝对时间描述 相对年月时间 TRelyearbeofore Prefix Tmonth Tday 去年3月 相对时间描述 后缀持续时间 TRelmonthafter Tmonth Suffix 3月以来 持续时间描述 年频度时间 TFytime Tfterm Num{1, 2}Year_Unit 每年 频度时间描述 季节稻时间 TAgriplanttime Season_Rice 一季稻 领域时间描述 -
根据时间描述计算方式的不同,将语义计算规则分为算子规则和映射规则。
算子规则通过外部程序扩展方式,为时间描述提供复杂计算能力。根据时间描述类型的不同,算子规则中的算子分为绝对时间计算算子、相对时间计算算子、持续时间计算算子、频度时间计算算子、领域时间计算算子。算子规则仅记录算子名称($ \mathrm{T}\mathrm{n} $)及算子参数($ \left[\mathrm{p}\mathrm{a}\mathrm{r}\mathrm{a}\mathrm{m}\mathrm{s}\right] $)的定义,其描述为$ \mathrm{T}\mathrm{o}\to (\mathrm{T}\mathrm{n}, [\mathrm{p}\mathrm{a}\mathrm{r}\mathrm{a}\mathrm{m}\mathrm{s}\left]\right) $。算子参数的个数、类型根据算子类型的不同也有所不同,具体如表 8所示。
表 8 时间算子
Table 8. Time Operators
算子名称 算子定义 参数含义 绝对时间算子 ABOSOLUTE:($ {T}_{y}, {T}_{m}, {T}_{d} $) $ {T}_{y}\mathrm{、}{T}_{m}\mathrm{、}{T}_{d} $分别是年、月、日时间量 相对时间算子 RELATIVE:($ {T}_{\mathrm{a}\mathrm{b}\mathrm{o}}, {R}_{\mathrm{d}\mathrm{i}\mathrm{r}}, {R}_{\mathrm{n}\mathrm{u}\mathrm{m}}, {R}_{\mathrm{u}\mathrm{n}\mathrm{i}\mathrm{t}} $) $ {T}_{\mathrm{a}\mathrm{b}\mathrm{o}} $表示绝对时间参考,$ {R}_{\mathrm{d}\mathrm{i}\mathrm{r}} $表示时间方向,$ {R}_{\mathrm{n}\mathrm{u}\mathrm{m}} $表示相对时间数值,$ {R}_{\mathrm{u}\mathrm{n}\mathrm{i}\mathrm{t}} $表示相对时间单位 持续时间算子 DURATION:($ {D}_{\mathrm{s}\mathrm{t}\mathrm{a}\mathrm{r}\mathrm{t}}, {D}_{\mathrm{e}\mathrm{n}\mathrm{d}} $) $ {D}_{\mathrm{s}\mathrm{t}\mathrm{a}\mathrm{r}\mathrm{t}} $表示起始时间,$ {D}_{\mathrm{e}\mathrm{n}\mathrm{d}} $表示终止时间 频度时间算子 FREQUENT:($ {T}_{\mathrm{s}\mathrm{t}\mathrm{a}\mathrm{r}\mathrm{t}}, {T}_{\mathrm{e}\mathrm{n}\mathrm{d}}, {F}_{\mathrm{n}\mathrm{u}\mathrm{m}}, {F}_{\mathrm{u}\mathrm{n}\mathrm{i}\mathrm{t}} $) $ {T}_{\mathrm{s}\mathrm{t}\mathrm{a}\mathrm{r}\mathrm{t}}\mathrm{、}{T}_{\mathrm{e}\mathrm{n}\mathrm{d}} $分别为起始时间和终止时间,$ {F}_{\mathrm{n}\mathrm{u}\mathrm{m}} $为频度数值,$ {F}_{\mathrm{u}\mathrm{n}\mathrm{i}\mathrm{t}} $为频度单位 领域时间算子 DOMAINT:($ {D}_{\mathrm{m}\mathrm{a}\mathrm{p}}, {D}_{\mathrm{l}\mathrm{o}\mathrm{c}}, {D}_{\mathrm{t}\mathrm{a}\mathrm{s}\mathrm{k}} $) $ {D}_{\mathrm{m}\mathrm{a}\mathrm{p}} $表示映射规则,$ {D}_{\mathrm{l}\mathrm{o}\mathrm{c}} $表示空间关联,$ {D}_{\mathrm{t}\mathrm{a}\mathrm{s}\mathrm{k}} $表示任务关联 领域时间算子相对其他算子,其参数较为特殊,是空间关联和任务关联相结合的算子,其值与需求文本所属的上下文相关,例如“湖北一季稻”和“黑龙江一季稻”在“一季稻”的生长期是有所区别的,“湖北”和“黑龙江”即是空间关联的输入。同理,任务关联随任务的不同,其所蕴含的时间区域也有所差异。
映射规则是将时间实体($ \mathrm{T}\mathrm{e} $)直接对应到某个时间点或时间段($ \mathrm{T}\mathrm{v} $)上,其描述为$ \mathrm{T}\mathrm{e}\to \mathrm{T}\mathrm{v} $。映射规则主要包括两类,一类为时间单元要素的计算,例如“上旬”可对应每个月“1日—10日”,“上半年”可对应“1月—6月”; 另一类为领域时间要素的计算,例如“春小麦”生长期为每年“05-03—06-30”,“国庆节”可对应每年“10-01—10-07”。
时间语义规则之间也可以嵌套,构成对复杂时间描述的计算定义。时间描述的语义计算规则与表示规则一一对应,记为$ {R}_{\mathrm{e}\mathrm{x}\mathrm{p}}\to {R}_{\mathrm{r}\mathrm{e}\mathrm{a}\mathrm{s}\mathrm{o}\mathrm{n}} $,语义计算规则中的算子参数可以根据表示规则来确定。
-
时间本体是对时间概念及其关系的抽象表示与明确的形式化规范说明。根据遥感数据需求文本的特征及时间解析、计算的需求,采用本体概念自顶向下设计、本体文件构建自底向上逐步集成的方法,构建了面向遥感数据需求文本获取及语义计算的时间本体,如图 1所示。
时间本体包括时间描述、时间语义要素、时间模型、时间知识4个大类。时间描述是时间的形式化表达特征描述,时间语义要素是时间描述语义的构成,时间模型是时间对象本身特性的描述,时间知识是时间表达和计算的相关知识。时间描述由时间语义要素构成,时间描述的实例将引用时间语义要素对象。所有的时间描述都具有时间知识属性,时间知识中引用了时间语义要素,用于知识表达。时间语义要素中的时间关系实例映射到时间模型下的拓扑关系实例,用于语义计算。所有的时间描述最终将转化为时间对象下的时间点或时间段。
-
遥感数据需求文本中,时间的理解可以分为时间获取和语义计算两个步骤,如图 2所示。时间获取是从遥感数据需求文本句子中识别时间信息,包括时间语义规则编译和匹配。语义计算则将提取的时间短语转化为计算机时间,包括时间语义计算规则解析和时间结果计算。
-
时间表达式的获取采用基于规则的信息抽取技术,其核心是时间描述语义表示规则的编译和规则匹配,如图 3所示。
规则编译是一个循环迭代的解译过程。首先从时间本体的时间描述中获取所有实例,根据其属性描述规则获得文本描述规则定义,并对定义进行解析。若该定义中嵌套了其他时间描述规则,则继续解析该规则,若不包含嵌套,则从时间语义单元中读取规则包含的定义要素,通过替换解释生成正则表达式,直到所有的时间描述实例规则都编译完成,即形成正则表达式集合。例如,对于表 7中的“年月日时间”时间规则,其包含子规则“年时间” “月时间” “日时间”。此时进行嵌套解析,当解析“日时间”规则时,已不包含子规则,只有语义单元要素,则从时间本体中读取数字、日单位等进行规则编译,生成(0?[1-9]|[12]\d|3[01])(日|号)的“日时间”正则表达式。当“年时间” “月时间”也编译完成后,拼接成“年月日时间”正则表达式。
对遥感数据需求文本进行正则表达式匹配时,若有规则能匹配上,则说明可能有时间要素。若有多个规则能同时匹配,采用最长匹配原则,取匹配结果最长的作为最终结果。根据正则表达式的匹配结果以及使用的匹配规则,对匹配结果进行语义细分,细分方法为根据规则的嵌套情况逐步对匹配结果进行解析,直到获得最小粒度的时间单元要素并输出。例如,对于“2018年5月底至6月中旬武汉水稻病虫害监测”,识别并提取时间描述“2018年5月底-6月中旬”,对其细分后输出的时间单元要素为“2018[num],年[year_unit]; 5[num],月底[month_appendix]; -[connecter]; 6[num],月[Month_Unit],[中旬][month_appendix]”。
-
时间表达式的语义计算流程如图 4所示。根据时间表达式的获取结果,得到相应的语义计算规则,若该计算规则还嵌套有其他计算规则,则进行进一步解析,直到所有的嵌套子规则解析完毕。根据嵌套解析过程,从最底层的原子计算规则开始,解析算子所需参数并调用算子函数。算子有5类:(1)绝对时间计算,对年、月、日时间进行量化; (2)相对时间计算,在基准时间的基础上,根据时间偏移方向和偏移量计算相对时间; (3)持续时间计算,根据起始时间和终止时间计算时间段长度,其起始时间和终止时间一般为其他类型的嵌套时间; (4)频度时间计算,根据频度数值、单位以及起始时间和终止时间,计算系列时间点集合; (5)领域时间计算,根据映射规则以及时间和空间关联规则,获取领域时间。各算子所需参数可从时间表达式的细分结果中获取。根据语义计算规则的解析结果,逐级递归计算,最后输出计算机时间。
例如,根据“2018年5月底至6月中旬”时间表达式获取结果,得到其计算规则为“DURATION:(ABOSOLUTE:(0,1,r101102),ABOSOLUTE:(-1,1,r101101))”,是一个嵌套的持续时间计算规则,其中包含了两个绝对时间的计算。第1个绝对时间通过年、月的索引0、1从细分结果中获取年、月相应的数值,再通过$ \mathrm{r}101102 $映射规则获得“月底”的日范围数值,即得到时间结果2018-05-20—2018-05-31;第2个绝对时间计算类似,其年索引-1代表缺失,在持续时间计算中默认取值与起始时间的年份相同,得到2018-06-10—2018-06-20时间段。通过持续时间的计算,得到2018-05-20—2018-06-20的计算机时间。
-
为验证本文构建的时间本体及时间解析方法的效果,以Protĕgĕ本体编辑软件建立了时间本体,包括语义描述实例101个,关系29个,语义表示规则101条,语义计算规则179条,即该时间本体支持101类遥感影像需求数据时间描述的识别和理解。利用Java开发了实验系统。采用2 000条农业、林业和测绘等部门的遥感数据需求文本作为实验数据,每条记录都包含有时间信息,对每条数据按照语句所表达的时间范围进行人工标注。需求查询语句部分样例如表 9所示。
表 9 测试数据部分样例
Table 9. Part of Samples of Test Data
样例序号 样例需求查询语句 1 8月下旬到9月上旬,黑龙江湿地水域面积变化调查 2 四川五六月份沙化面积调查 3 2017年秋季长江中下游湿地分布调查 4 2016年12月下旬,川甘交界地区旱情监测 5 12年1月云南旱情监测,左上角(102.9°E, 27.1°N),右下角(105.0°E, 24.3°N) 本文使用正确率评估时空语义推理的有效性和推理效果,其定义为:
$$ \mathrm{正}\mathrm{确}\mathrm{率}=\frac{\mathrm{正}\mathrm{确}\mathrm{推}\mathrm{理}\mathrm{结}\mathrm{果}\mathrm{数}\mathrm{量}}{\mathrm{测}\mathrm{试}\mathrm{样}\mathrm{本}\mathrm{数}\mathrm{量}}\times 100\mathrm{\%} $$ (1) 将数据随机分为5组,每组400条数据,对每组数据进行测试。将计算结果和由人工标注的信息进行对比,计算正确率,实验结果如表 10所示。
表 10 正确率计算结果
Table 10. Accuracy Calculation Result
项目 组号 1 2 3 4 5 正确率/% 98.3 97.4 96.5 96.3 97.2 实验中出现的部分错误解析如下:
输入:2017年东北地区春玉米播种期间土壤肥力监测
时间短语抽取:2017年春玉米
时间语义单元表示层:[2017、年、春玉米]
时间计算层输出结果:{2017-06-01 00:00:00 — 2017-08-20 24:00:00}
分析错误的时间解析可知,本文方法正确识别出了领域词“春玉米”,并从词库中提取出对应的生长时间06-01—08-20,但该需求描述的时间是春玉米播种期间,应在4月—5月,而缺乏相应的领域时间空间关联语义计算规则,因此该解析出现了错误。
从以上实验结果来看,本文提出的时间本体模型能较好地提高对遥感数据需求文本的自然语言描述进行解析和推理的准确性。由于时间的表达有一定的规律性,可以通过时间表达规则进行较全面的总结,基于规则的方法也可以取得较好的效果。但出现的部分错误也反映出本文所实现的本体模型还不够完善,对于领域细节方面的解析有所欠缺,需要通过更多的案例来完善本体模型。
本文已将该方法应用于遥感数据检索系统中,可以通过遥感数据需求文本直接搜索遥感数据,如图 5所示。
-
快速响应用户遥感数据需求是海量遥感数据数据共享、分发与智能服务的关键问题。本文从遥感数据需求文本中的时间概念特征出发,分析了遥感数据需求文本时间描述的形式化表达特征,以此为基础建立了包含时间描述、时间语义要素、时间模型、时间知识在内的遥感数据需求时间本体模型,该模型将时间形式化表达和语义计算融为一体。基于该本体模型,本文给出了相应的时间获取及语义计算方法。实验表明,本文构建的时间本体及时间获取和语义计算方法对遥感需求文本时间具有较好的解析效果,但对于复杂句子的解析还需进一步探索; 同时扩展不同领域的时间描述,实现时间本体与空间本体、数据形态本体、遥感领域本体等之间的相互关联和协同解析是下一步的工作。
Time Extracting and Semantic Computing of Remote Sensing Data Demand Text Based on Ontology
-
摘要: 从遥感数据需求文本中获取时间要素并进行语义计算是实现遥感数据需求文本可理解的关键步骤之一。通过对遥感数据需求文本时间要素及其构成形式的分析,建立了融合时间形式表达与语义计算一体的时间本体,并在此基础上给出了遥感数据需求文本时间信息抽取及其语义计算方法。实验表明,该方法对于遥感数据需求文本的时间要素具有较好的解析与推理效率,有助于提升自然语言获取遥感数据的效率。Abstract:
Objectives Remote sensing image demand text is a user-friendly approach for users to acquire images through natural language. Time is a key element when searching for remote sensing images, thus extracting and understanding time description in remote sensing image demand text is critical in-demand semantic analysis. However, a few pieces of research focus on time extraction and semantic computing of remote sensing image demand text, and time extraction and semantic computing are not combined to get full consideration of time semantic analysis. Methods we collect remote sensing image demand texts from domains of disaster mitigation, agriculture, forestry, surveying and mapping. Then we extract time descriptions from demand texts manually and analyze their composition. By dividing time description into different time elements, a formal representation model is provided and time semantic representation rules as while as time semantic computation rules are proposed. Finally, a time ontology that integrates the time formal representation and semantic computing together is developed, which including four parts: Time semantic elements, time description, time model, and time knowledge. A rule-based time extracting method and a semantic computing method which both based on the time ontology are also given. Results We carried out experiments on 2 000 remote sensing image demand texts, which were divided into five groups. The baseline was made manually and compared with the results of our methods. We got an average precision of 97.1%. Experiments show that our method has better efficiency for understanding time information in remote sensing data demand text. Conclusions Integrating time extraction and semantic computing into one ontology providing a seamless comprehension of time description in remote sensing image demand text, which helps to improve the efficiency of obtaining remote sensing images through natural language. -
Key words:
- remote sensing data /
- time ontology /
- time extracting /
- semantic computing
-
表 1 时间描述类型示例
Table 1. Examples of Time Description Types
类型 说明 描述示例 绝对时间 能够在时间轴上直接定位的时间描述 2017年3月15日
2016年2月1日至5月20日
2017年第三季度相对时间 以绝对时间为基准,通过时间拓扑关系进行定位的时间描述 去年中秋节
上周一
上个月
过去两年持续时间 以某个时间点为原点,向前或向后连续的某个时间段 3月1日以前
2018年下半年至今
2016年一季度以来频度时间 表示周期的时间描述 三个月一次
每周一次
一个季度一次领域时间 一般为领域内的专有时间名词,包括:(1)公用专有时间,如节假日、节气、纪念日等; (2)遥感数据应用领域专有时间词,如“春小麦播种” “一季稻收获”等农业领域的专业词 春节
立春
春玉米表 2 时间单位要素
Table 2. Timescale Elements
时间单位 定义 实例 天单位 天单位描述 号、日、天 周单位 周单位描述 星期、周、礼拜 月单位 月单位描述 月、月份 季度单位 季度单位描述 季度 季节单位 季节单位描述 季、季节 年单位 年单位描述 年 表 3 时间单元要素
Table 3. Time Unit Elements
时间单元要素 定义 实例 数字 描述时间的数量词,由阿拉伯数字和中文汉字组成 零、一、二、三、四、五、六、七、八、九、十、十一、十二、两、0~9 季度修饰 修饰季度的词 第一、第二、第三、第四、第1、第2、第3、第4 天修饰 描述天时间的词 晚上、晚、下午、中午、凌晨、早上、上午、早晨、中、傍晚、早、深夜 月修饰 对月进行修饰,具体为月的某一天 下旬、月末、月底、中下旬、月初、前半月、后半月、中下旬、中上旬 年修饰 对年的修饰,具体为年的某个月 下半年、年底、年中、年初、上半年、年终 季节修饰 对季节的修饰,季节固定的月日时间范围 冬天、夏、秋天、春、春天、夏天、秋、冬季、冬、秋季、夏季、春季 表 4 时间关系要素
Table 4. Time Relationship Elements
时间关系要素 定义 实例 两端修饰 描述不精确的一段时间范围 左右、前后、上下 当前修饰 表示时间的准确词 现在、目前、现今、当前、当今 前缀修饰 描述时间的组成单位词,只是作为时间的单位元素 上个、本、下、下个、上、昨、次、今、明、去、前 后缀修饰 描述两个时间点的联系 至今、以来、以后、之后、后、之前、以前、近 表 5 领域时间要素
Table 5. Domain Time Elements
领域时间要素 定义 实例 节气 二十四节气的表示 大暑、惊蛰、小寒、芒种、小雪、…、秋分、立秋、雨水 节日 表示中国特有的法定节假日、传统节日等固定的时间 教师节、植树节、中秋节、建党节、劳动节、中秋节 农业 描述农业领域的特殊专有时间短语 春小麦、冬小麦、春玉米、早稻、中稻、晚稻、一季稻 表 6 连接符要素
Table 6. Connector Elements
要素 定义 实例 连接符 语义单元联系符号词 —、-、~、到、至、之间、/ 表 7 时间描述语义表示规则示例
Table 7. Examples of Time Description Semantic Representation Rule
规则名称 规则标识 规则表达式 规则内容示例 所属类 年时间 Tyear (Num{2, 4}) Year_Unit 2016年 时间单元 月时间 Tmonth (Num{1, 2}) Month_Unit 5月 时间单元 日时间 Tday (Num{1, 2}) Day_Unit 3号 时间单元 年月日时间 Tdate Tyear Tmonth Tday 2018年3月1日 绝对时间描述 时间段 Timespan1 Tdate Connection Tdate 2018年3月1日至2018年4月1日 绝对时间描述 相对年月时间 TRelyearbeofore Prefix Tmonth Tday 去年3月 相对时间描述 后缀持续时间 TRelmonthafter Tmonth Suffix 3月以来 持续时间描述 年频度时间 TFytime Tfterm Num{1, 2}Year_Unit 每年 频度时间描述 季节稻时间 TAgriplanttime Season_Rice 一季稻 领域时间描述 表 8 时间算子
Table 8. Time Operators
算子名称 算子定义 参数含义 绝对时间算子 ABOSOLUTE:($ {T}_{y}, {T}_{m}, {T}_{d} $) $ {T}_{y}\mathrm{、}{T}_{m}\mathrm{、}{T}_{d} $分别是年、月、日时间量 相对时间算子 RELATIVE:($ {T}_{\mathrm{a}\mathrm{b}\mathrm{o}}, {R}_{\mathrm{d}\mathrm{i}\mathrm{r}}, {R}_{\mathrm{n}\mathrm{u}\mathrm{m}}, {R}_{\mathrm{u}\mathrm{n}\mathrm{i}\mathrm{t}} $) $ {T}_{\mathrm{a}\mathrm{b}\mathrm{o}} $表示绝对时间参考,$ {R}_{\mathrm{d}\mathrm{i}\mathrm{r}} $表示时间方向,$ {R}_{\mathrm{n}\mathrm{u}\mathrm{m}} $表示相对时间数值,$ {R}_{\mathrm{u}\mathrm{n}\mathrm{i}\mathrm{t}} $表示相对时间单位 持续时间算子 DURATION:($ {D}_{\mathrm{s}\mathrm{t}\mathrm{a}\mathrm{r}\mathrm{t}}, {D}_{\mathrm{e}\mathrm{n}\mathrm{d}} $) $ {D}_{\mathrm{s}\mathrm{t}\mathrm{a}\mathrm{r}\mathrm{t}} $表示起始时间,$ {D}_{\mathrm{e}\mathrm{n}\mathrm{d}} $表示终止时间 频度时间算子 FREQUENT:($ {T}_{\mathrm{s}\mathrm{t}\mathrm{a}\mathrm{r}\mathrm{t}}, {T}_{\mathrm{e}\mathrm{n}\mathrm{d}}, {F}_{\mathrm{n}\mathrm{u}\mathrm{m}}, {F}_{\mathrm{u}\mathrm{n}\mathrm{i}\mathrm{t}} $) $ {T}_{\mathrm{s}\mathrm{t}\mathrm{a}\mathrm{r}\mathrm{t}}\mathrm{、}{T}_{\mathrm{e}\mathrm{n}\mathrm{d}} $分别为起始时间和终止时间,$ {F}_{\mathrm{n}\mathrm{u}\mathrm{m}} $为频度数值,$ {F}_{\mathrm{u}\mathrm{n}\mathrm{i}\mathrm{t}} $为频度单位 领域时间算子 DOMAINT:($ {D}_{\mathrm{m}\mathrm{a}\mathrm{p}}, {D}_{\mathrm{l}\mathrm{o}\mathrm{c}}, {D}_{\mathrm{t}\mathrm{a}\mathrm{s}\mathrm{k}} $) $ {D}_{\mathrm{m}\mathrm{a}\mathrm{p}} $表示映射规则,$ {D}_{\mathrm{l}\mathrm{o}\mathrm{c}} $表示空间关联,$ {D}_{\mathrm{t}\mathrm{a}\mathrm{s}\mathrm{k}} $表示任务关联 表 9 测试数据部分样例
Table 9. Part of Samples of Test Data
样例序号 样例需求查询语句 1 8月下旬到9月上旬,黑龙江湿地水域面积变化调查 2 四川五六月份沙化面积调查 3 2017年秋季长江中下游湿地分布调查 4 2016年12月下旬,川甘交界地区旱情监测 5 12年1月云南旱情监测,左上角(102.9°E, 27.1°N),右下角(105.0°E, 24.3°N) 表 10 正确率计算结果
Table 10. Accuracy Calculation Result
项目 组号 1 2 3 4 5 正确率/% 98.3 97.4 96.5 96.3 97.2 -
[1] 陈兴峰. 基于内容的遥感图像数据库检索研究及实现[D]. 成都: 电子科技大学, 2008 Chen Xingfeng. Research and Implementation of Content-Based Image Retrieval System[D]. Chengdu: University of Electronic Science and Technology of China, 2008 [2] Jain A K, Vailaya A. Image Retrieval Using Color and Shape[J]. Pattern Recognition, 1996, 29(8): 1 233-1 244 doi: 10.1016/0031-3203(95)00160-3 [3] Pujari J, Pushpalatha S N, Padmashree D. Content-Based Image Retrieval Using Color and Shape Descriptors[C]. International Conference on Signal and Image Processing, Chennai, India, 2011 [4] 谢毅. 海量遥感数据数据存储组织结构研究[D]. 开封: 河南大学, 2011 Xie Yi. Research on Data Structure of Massive Remote Sensing Image Data Storage[D]. Kaifeng: Henan University, 2011 [5] Kim I J, Lee J H, Kwon Y M, et al. Content-Based Image Retrieval Method Using Color and Shape Features[C]. 1997 International Conference on Information, Communications and Signal Processing, Singapore, 1997 [6] 郑忠刚, 付琨, 徐崇彦, 等. 遥感数据用户需求融合处理技术[J]. 国防科技大学学报, 2019, 41(2): 115-123 https://www.cnki.com.cn/Article/CJFDTOTAL-GFKJ201902017.htm Zheng Zhonggang, Fu Kun, Xu Chongyan, et al. Remote Sensing Data User Request Merging Technology. [J] Journal of National University of Defense Technology, 2019, 41(2): 115-123 https://www.cnki.com.cn/Article/CJFDTOTAL-GFKJ201902017.htm [7] 程起敏. 基于内容的遥感数据库检索关键技术研究[D]. 北京: 中国科学院遥感应用研究所, 2004 Cheng Qimin. Research on Key Technologies of Content-Based Retrieval from Remote Sensing Image Database[D]. Beijing: Institute of Remote Sensing Applications, Chinese Academy of Sciences, 2004 [8] Peng N, Dredze M. Improving Named Entity Recognition for Chinese Social Media with Word Segmentation Representation Learning[C]. The 54th Annual Meeting of the Association for Computational Linguistics, Berlin, Germany, 2016 [9] Nothman J, Ringland N, Radford W, et al. Learning Multilingual Named Entity Recognition from Wikipedia[J]. Artificial Intelligence, 2013, 194: 151-175 doi: 10.1016/j.artint.2012.03.006 [10] GATE. GATE's ANNIE System[EB/OL]. https://gate.ac.uk/ie/annie.html, 2019 [11] Chen H H, Ding Y W, Tsai S, et al. Description of the NTU System Used for MET2[C]. The 7th Message Understanding Conference, Fairfax, Virginia, USA, 1998 [12] Bikel D M, Schwarta R, Weischedel R M. An Algorithm that Learns What's in a Name[J]. Machine Learning Journal Special Issue on Natural Language Learning, 1999, 34(1-3): 211-231 doi: 10.1023/A:1007558221122 [13] Han A L, Wong D F, Chao L S. Chinese Named Entity Recognition with Conditional Random Fields in the Light of Chinese Characteristics[M]//Kłopotek M A, Koronacki J, Marciniak M, et al. Language Processing and Intelligent Information Systems. Berlin, Heidelberg: Springer, 2013 [14] Lample G, Ballesteros M, Subramanian S, et al. Neural Architectures for Named Entity Recognition[C]. The 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, San Diego, California, USA, 2016 [15] Allen J F. Towards a General Theory of Action and Time[J]. Artificial Intelligence, 1984, 23(2): 123-154 doi: 10.1016/0004-3702(84)90008-0 [16] Li W, Wong K F, Yuan C. Toward Automatic Chinese Temporal Information Extraction[J]. Journal of the Association for Information Science & Technology, 2001, 52(9): 748-762 doi: 10.1002/asi.1126/abstract [17] 胡广朋, 王艳, 于枫, 等. 事件的持续时间的表示与推理[J]. 微计算机应用, 2007, 28(11): 1 208-1 211 https://www.cnki.com.cn/Article/CJFDTOTAL-WJSY200711019.htm Hu Guangpeng, Wang Yan, Yu Feng, et al. The Representation and Reasoning of Duration of Events[J]. Micro Computer Applications, 2007, 28(11) : 1 208-1 211 https://www.cnki.com.cn/Article/CJFDTOTAL-WJSY200711019.htm [18] W3C. Time Ontology in OWL[EB/OL]. http://www.w3.org/TR/2006/WD-owl-time-20060927/, 2006 [19] Pan F, Hobbs J R. Time in OWLs[C]. The AAAI-04 Spring Symposium on Semantic Web Services, Los Angeles, California, USA, 2004 [20] Stanford University KSL. KSL-Time[DB/OL]. http://www.ksl.stanford.edu/ontologies/time, 2008 [21] Cycorp. Times and Dates in Cyc[DB/OL]. http://www.cyc.com/cycdoc/vocab/timevocab.html, 2002 [22] Zhang C, Cao C, Sui Y, et al. A Chinese Time Ontology for the Semantic Web[J]. Knowledge-Based Systems, 2011, 24(7): 1 057-1 074 http://www.sciencedirect.com/science/article/pii/S0950705111000876 [23] 侯志伟, 诸云强, 高星, 等. 时间本体及其在地学数据检索中的应用[J]. 地球信息科学学报, 2015, 17(4): 379-390 https://www.cnki.com.cn/Article/CJFDTOTAL-DQXX201504002.htm Hou Zhiwei, Zhu Yunqiang, Gao Xing, et al. Time-Ontology and Its Application in Geodata Retrieval[J]. Journal of Geo-Information Science, 2015, 17(4): 379-390 https://www.cnki.com.cn/Article/CJFDTOTAL-DQXX201504002.htm [24] 侯志伟, 诸云强, 高楹, 等. 地质年代本体及其在语义检索中的应用[J]. 地球信息科学学报, 2018, 20(1): 17-27 https://www.cnki.com.cn/Article/CJFDTOTAL-DQXX201801004.htm Hou Zhiwei, Zhu Yunqiang, Gao Ying, et al. Geologic Time Scale Ontology and Its Applications in Semantic Retrieval[J]. Journal of Geo-Information Science, 2018, 20(1): 17-27 https://www.cnki.com.cn/Article/CJFDTOTAL-DQXX201801004.htm [25] 李铭. 任务驱动的遥感数据检索案例推理方法研究[D]. 武汉: 武汉大学, 2014 Li Ming. Task-Oriented Remote Sensing Images Retrieval Based on Case-Based Reasoning[D]. Wuhan: Wuhan University, 2014 [26] 李铭, 朱欣焰, 段炼, 等. 时空约束下任务驱动的遥感数据发现案例推理方法[J]. 武汉大学学报·信息科学版, 2017, 42(6): 768-774 doi: 10.13203/j.whugis20140823 Li Ming, Zhu Xinyan, Duan Lian, et al. A Case-Based Reasoning Approach for Task-Driven Remote Sensing Image Discovery Under Spatial-Temporal Constrains[J]. Geomatics and Information Science of Wuhan University, 2017, 42(6): 768-774 doi: 10.13203/j.whugis20140823 [27] 张树壮, 罗浩, 方滨兴. 面向网络安全的正则表达式匹配技术[J]. 软件学报, 2011, 22(8): 1 838-1 854 https://www.cnki.com.cn/Article/CJFDTOTAL-RJXB201108013.htm Zhang Shuzhuang, Luo Hao, Fang Binxing. Regular Expressions Matching for Network Security[J]. Journal of Software, 2011, 22(8): 1 838-1 854 https://www.cnki.com.cn/Article/CJFDTOTAL-RJXB201108013.htm -