著录项信息
专利名称 | 一种面向自然语言的位置信息提取方法 |
申请号 | CN201310246368.1 | 申请日期 | 2013-06-20 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2013-09-18 | 公开/公告号 | CN103309992A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0;;;G;0;6;F;1;7;/;2;8查看分类表>
|
申请人 | 武汉大学 | 申请人地址 | 湖北省武汉市武昌区珞珈山武汉大学
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 武汉大学 | 当前权利人 | 武汉大学 |
发明人 | 呙维;朱欣焰;陈柳媛;佘冰 |
代理机构 | 武汉科皓知识产权代理事务所(特殊普通合伙) | 代理人 | 张火春 |
摘要
本发明公开了一种面向自然语言的位置信息提取方法,包括以下步骤:步骤1:分析自然语言位置描述的特点,构建语义位置概念层次模型;步骤2:基于所述的语义位置概念层次模型定义位置提取规则,所述的位置提取规则包括地名提取规则和空间关系提取规则;步骤3:经过地名识别和空间关系识别,提取位置信息。本发明相对于现有技术,具有灵活性强的优点,能够适合各类位置描述句法模式。
1.一种面向自然语言的位置信息提取方法,其特征在于,包括以下步骤:
步骤1:分析自然语言位置描述的特点,构建语义位置概念层次模型;具体实现包括以下子步骤:
步骤1.1:建立面向自然语言位置描述的地名本体和空间关系本体;
步骤1.2:搜集所述的地名词汇和所述的空间关系词汇,并按照所述的地名本体和所述的空间关系本体分类;
步骤1.3:分析自然语言位置描述的特点,构建语义位置概念层次模型;
步骤2:基于所述的语义位置概念层次模型定义位置提取规则,所述的位置提取规则包括地名提取规则和空间关系提取规则;
步骤3:经过地名识别和空间关系识别,提取位置信息;具体实现包括以下子步骤:
步骤3.1:根据地名词典,解析所述的地名提取规则;
步骤3.2:将所述的地名提取规则与位置描述进行匹配,若匹配成功,则记录地名识别结果;
步骤3.3:根据所述的地名识别结果的字符起止位置、有效字数等信息,消除地名歧义,处理地名描述省略情况;
步骤3.4:根据所述的地名词典、地名识别结果,解析所述的空间关系提取规则;
步骤3.5:将所述的空间关系提取规则与所述的位置描述进行匹配,若匹配成功,则记录空间关系识别结果和其中匹配到的有效字符;
步骤3.6:根据所述的地名词典、地名识别结果、已有空间关系识别结果,继续解析所述的空间关系提取规则;
步骤3.7:重复所述的步骤3.5和3.6的过程,直至匹配到的有效字符无增长;
步骤3.8:根据所述的记录空间关系识别结果的字符起止位置、有效字数等信息,消除所述的空间关系歧义;
步骤3.9:经过地名识别和空间关系识别,提取位置信息。
一种面向自然语言的位置信息提取方法\n技术领域\n[0001] 本发明涉及位置信息服务领域,尤其涉及一种面向自然语言的位置信息提取方法。\n背景技术\n[0002] 地理信息系统(GIS)是一门综合性的学科。目前,GIS已在许多行业,如电力、通讯、水利、银行、交通、城市规划、土地管理、资源环境保护等得到广泛的应用。与此同时,GIS随着其他学科的发展而发展,其自身的发展也带来许多新的课题。近年来,智能GIS受到越来越多的关注,自然语言与GIS相结合是GIS智能化发展的一个重要方向,使GIS在应用方式上更加人性化、智能化,提供易操作的用户访问与信息表达手段,对于GIS大众化起到重要的推动作用。GIS自然语言空间查询,自然语言路径描述,中文文本空间关系抽取,场景转换及场景重建等领域已成为当前地理信息科学研究的热点。自然语言符合人类表达的习惯。人类表达自己思想最方便、最自然的方式是利用人类自身的各种自然语言,人之间交流观点、传播消息最方便、最自然的方式也是利用自然语言。自然语言与GIS相结合的一个重要应用是面向自然语言的位置服务。如何从自然语言中自动抽取空间信息,消除GIS中结构化空间信息与自然语言中非结构化空间信息之间的语义障碍,已成为面向自然语言的位置服务需要首先解决的难题。目前自然语言处理和数据挖掘等人工智能领域的研究成果,为实现智能GIS奠定了坚实的基础。\n[0003] 面向自然语言的位置描述信息提取是自然语言位置服务首先需要解决的问题。自然语言位置描述包括地名描述、位置关系描述等。目前,自然语言位置描述的研究对象局限在中文文本地名解析和自然语言空间关系描述的词汇及句法模式上,还没有建立GIS位置信息的完整的自然语言理解机制,并且成果仍然停留在简单原型系统设计阶段,缺乏全面的实用化探讨。此外,在规则描述语言方面,目前的研究大多针对机器翻译,没有位置描述方面相关的规则描述语言研究。\n发明内容\n[0004] 为了解决上述的技术问题,本发明根据自然语言位置描述的特点,构建了语义位置概念层次模型,定义一种基于语义位置概念的自然语言位置提取规则描述方法,提出了一种面向自然语言的位置信息提取方法。\n[0005] 本发明所采用的技术方案是:一种面向自然语言的位置信息提取方法,其特征在于,包括以下步骤:\n[0006] 根据权利要求1所述的面向自然语言的位置信息提取方法,其特征在于:所述的步骤3的实现包括以下子步骤:\n[0007] 步骤3.1:根据地名词典,解析所述的地名提取规则;\n[0008] 步骤3.2:将所述的地名提取规则与位置描述进行匹配,若匹配成功,则记录地名识别结果;\n[0009] 步骤3.3:根据所述的地名识别结果的字符起止位置、有效字数等信息,消除地名歧义,处理地名描述省略情况;\n[0010] 步骤3.4:根据所述的地名词典、地名识别结果,解析所述的空间关系提取规则;\n[0011] 步骤3.5:将所述的空间关系提取规则与所述的位置描述进行匹配,若匹配成功,则记录空间关系识别结果和其中匹配到的有效字符;\n[0012] 步骤3.6:根据所述的地名词典、地名识别结果、已有空间关系识别结果,继续解析所述的空间关系提取规则;\n[0013] 步骤3.7:重复所述的步骤3.5和3.6的过程,直至匹配到的有效字符无增长;\n[0014] 步骤3.8:根据所述的记录空间关系识别结果的字符起止位置、有效字数等信息,消除所述的空间关系歧义;\n[0015] 步骤3.9:经过地名识别和空间关系识别,提取位置信息。\n[0016] 本发明相对于现有技术,具有灵活性强的优点,能够适合各类位置描述句法模式。\n附图说明\n[0017] 图1:本发明具体实施例的位置概念层次模型。\n具体实施方式\n[0018] 以下将通过附图和具体实施方式对本发明做进一步阐述。\n[0019] 在数学、逻辑和计算机科学中,形式语言是用精确的数学和可处理的公式定义的语言。在形式语言的理论中,语言被看成是一个抽象的符号系统,乔姆斯基(Chomsky)曾经把形式语言定义为:按一定规律构成的句子或符号串的有限或无限的集合。根据这个定义,无论哪一种语言都是句子和符号串的集合,当然自然语言也不例外,汉语、英语等所有的自然语言都是一个无限的集合。我国学者吴蔚天把自然语言看成一个抽象的数学系统。无论把语言看成集合还是数学系统,都可以用数学的方法来进行描述。一般地,表述一种语言可以有三种途径:①穷举法,把语言中的所有句子都枚举出来;②产生式文法描述,语言中的每个句子都用严格定义的规则来构造,利用规则生成语言中的合法句子;③自动机法,通过对输入的句子进行合法性检验,区别哪些是语言中的句子,哪些不是语言中的句子。\n[0020] 形式语言是用精确语言及其结构的手段,形式语言也称为代数语言学。计算机要处理自然语言,首要的条件是对语言研究的结果采用形式化的方法加以描述,把它编制成计算机可以识别的规则,通过程序让计算机一步步操作,达到识别理解的目的。\n[0021] 乔姆斯基把一种形式语言的文法G定义如下的四元组G=(N,∑,P,S),其中,N是非终结符(Non-terminal symbol)的有限集合,这些符号不能处于生成的终端,∑是终结符(Terminal symbol)的有限集合,这些符号可以出现在生成的终端,N∩∑=Φ;V=N∪∑称为总词汇表(Vocabulary);P是重写规则的有限集合:P={α→β},其中,α、β是由V中元素构成的串,但是α中至少应该含有一个非终结符号;S∈N称为句子符或者起始符。\n[0022] 给定一个文法G,就可以从起始符S,应用重写规则推导出语言L(G)。具体来说,用重写规则S→a1,就可以从起始符S推导出新的符号串,再利用重写规则a1→a2从a1导出新的字符串a2,一直到最后导出终结符an为止。这个终结符就是语言L(G)的一个合法的句子。\n[0023] 在文法G=(N,∑,P,S)中,重写规则的一般形式为α→β,且α≠β,根据对其中的重写规则所附加的限制不同,可以给形式文法分类。在乔姆斯基的语法理论中,文法划分为4种类型:0型文法、1型文法、2型文法、3型文法,分别称为无约束文法、上下文相关文法、上下文无关文法和正则文法。\n[0024] 乔姆斯基理论在自然语言处理中是一种理性的处理方法,是一种基于规则的方法(Rule-based approach),或者叫做符号注意的方法(Symbol approach)。这种基于规则的方法适合于处理深层次的语言现象和长距离依存关系,它继承了哲学中理性注意的传统,多使用演绎法而很少使用归纳。在自然语言处理中,在基于规则方法的基础上发展起来的有:有限状态转移网络、有限状态转录机、递归转移网络、扩充转移网络、短语结构语法、自底向上剖析、自顶向下剖析、左角分析法、Earley算法、CYK算法、富田算法、复杂特征分析法、合一运算、依存语法、一阶谓词演算、语义网络和框架网络等。\n[0025] 语义分析和句法分析是自然语言理解系统的两个最基本的功能模块。语义分析的任务是根据输入句子的句法结构和句中每个实词的词义推导出能反映这个句子意义(即句义)的某种形式化表示。一般来说,只有在获得输入可靠的语义表示之后,系统才能进一步完成问答、释义、翻译和文摘生成等任务。\n[0026] 语义分析的目的是确定句子的语义,也就是要找到一种合式定义的带有简单语义形式的语言。语义分析是自然理解的一个重要步骤,概括起来有三个方面的内容:①理清句子的语义结构关系;②把句子的各个构成成分的意义组合成一个完整的句子的意义,并把它映现为一个严格定义的形式语言来刻画表达式;③说明句子中词语搭配上存在的各种语义限制条件。语义分析是一个十分复杂的问题,对于不同的应用系统而言,语义规则的组织和语义分析的实现方法差异很大。\n[0027] 基于上述的理论基础,本发明提出的一种面向自然语言的位置信息提取方法,包括以下步骤:\n[0028] 步骤1:分析自然语言位置描述的特点,构建语义位置概念层次模型;其具体实现包括以下子步骤:\n[0029] 步骤1.1:建立面向自然语言位置描述的地名本体和空间关系本体;\n[0030] 步骤1.2:搜集所述的地名词汇和所述的空间关系词汇,并按照所述的地名本体和所述的空间关系本体分类;\n[0031] 步骤1.3:分析自然语言位置描述的特点,构建语义位置概念层次模型。\n[0032] 语义位置概念用来表达某类位置信息,自然语言位置描述经过信息提取后,存储在对应位置概念实例中,如“湖北省北部”是一种方位概念描述,采用方位概念对应的规则提取出信息后建立一个方位概念实例,并记录提取的信息。语义位置概念之间具有上下级之分,用继承来体现;\n[0033] 请见图1,为本发明具体实施例的位置概念层次模型,经过分析大量自然语言位置描述,构建语义位置概念层次模型如下:\n[0034] ●Loc//位置概念(顶层)\n[0035] ■RelationLoc//空间关系概念\n[0036] ◆DirectionRLoc//方位关系概念\n[0037] ●DirectInRLoc//方位关系概念1,地名内部方位关系,如“湖北北部”[0038] ●DirectToRLoc//方位关系概念2,以地名为方向限定的方位关系,如:“广埠屯往武商量贩方向”\n[0039] ●......\n[0040] ◆TopologicRLoc//拓扑关系概念\n[0041] ●AdjacentRLoc//相接关系概念\n[0042] ■AdjaWithRLoc1//相接关系概念1,线-线相接关系\n[0043] ■AdjaWithRLoc2//相接关系概念2,点-点相接,或面-面相接\n[0044] ■AdjaPlaceRLoc//相接关系概念3,线与线的相接处\n[0045] ■......\n[0046] ●SeparateRLoc//相离关系概念\n[0047] ■SepaCloseRLoc//相离关系概念1,相离很近\n[0048] ■......\n[0049] ●IncludeRLoc//包含关系概念\n[0050] ■InclByRLoc//包含关系概念1,被包含关系,如“武汉大学内”\n[0051] ■......\n[0052] ●EqualRLoc//相等关系概念\n[0053] ■EqualToRLoc//相等关系概念1\n[0054] ●CrossRLoc//相交关系概念\n[0055] ■CrossWithRLoc//相交关系概念1,线-线相交,或点-线相交\n[0056] ■CrossPlaceRLoc//相交关系概念1,线-线相交处\n[0057] ■......\n[0058] ◆DistanceRLoc//度量关系概念\n[0059] ●ApproDistRLoc//模糊距离概念\n[0060] ●DistSpaceRLoc//空间距离概念\n[0061] ●DistTimeRLoc//时间距离概念\n[0062] ◆SpecRLoc//特殊空间关系概念\n[0063] ●StructureRLoc//结构关系概念\n[0064] ■MountainRLoc//结构关系概念1,山体结构\n[0065] ■RoadRLoc//结构关系概念2,道路结构\n[0066] ■RiverRLoc//结构关系概念3,河流结构\n[0067] ■ADMRLoc//结构关系概念4,政治结构\n[0068] ■......\n[0069] ●FacetoRLoc//相望关系概念,对面,相望\n[0070] ●AlongRLoc//沿着关系概念\n[0071] ●SurroundRLoc//包围关系概念\n[0072] ■SurAroundRLoc//包围关系概念1,...周围,环...\n[0073] ■SurBetwRLoc//包围关系概念2,之间\n[0074] ◆CombineRLoc//组合空间关系概念\n[0075] ●DirAdjaRLoc//组合关系概念1,方位和相接,西毗邻…,西与…相邻,西起于,东至\n[0076] ●AdjaDirRLoc//组合关系概念2,相接和方位,起于...北部\n[0077] ●SepaDistRLoc//组合关系概念3,相离和度量关系,武汉大学旁边100m[0078] ●DirDistRLoc1//组合关系概念4,方位和度量,如昆明市西约40公里处[0079] ●DirDistRLoc2//组合关系概念5,方位和度量,如东距...约40公里[0080] ●DirDistRLoc3//组合关系概念6,以地名为方向限定(空间距离),如:广埠屯往武商量贩方向100米处\n[0081] ●DirDistRLoc4//组合关系概念7,相对方位和度量,如...左边500处[0082] ●DirDistRLoc5//组合关系概念8,以地名为方向限定(时间距离),如:广埠屯往武商量贩方向步行二十分钟\n[0083] ●DirFacRLoc//组合关系概念9,方位和相望,西与...相望\n[0084] ■GeoName//地名概念\n[0085] ◆SimpleGName//单个地名概念,武汉\n[0086] ◆ComGName//组合地名概念包含关系的地名组合,如湖北武汉\n[0087] ◆......\n[0088] 上下层概念之间,处于上一层的概念成称为“父概念”,下一层的称为“子概念”。上述层次模型中,Loc是RelationLoc的父概念,RelationLoc是Loc的子概念。又DirectionRLoc是RelationLoc的子概念,所以DirectionRLoc也是Loc的子概念,但认为RelationLoc是Loc的直接子概念,DirectionRLoc是Loc的间接子概念。\n[0089] 下面以方位关系位置概念为例,给出部分位置概念的定义:\n[0090] \n[0091] 此位置概念记录区域内部方位概念,如“湖北北部”。变量g_name记录地名概念GeoName及其子概念的实例,如“湖北”对应的SimpleGName概念实例(SimpleGName是GeoName的子概念)。r_DirectAbsWord记录知识库概念DBDirectAbsWd实例,如“北”对应的概念实例。\n[0092] \n[0093] 此位置概念记录以地名之间相对方位位置概念,如“广埠屯往街道口方向”。变量loc记录位置概念Loc及其子概念的实例,如“湖北”对应的SimpleGName概念实例(SimpleGName是Loc的间接子概念)。变量g_name记录地名概念GeoName及其子概念的实例,如“街道口”对应的概念实例。\n[0094] 步骤2:基于所述的语义位置概念层次模型定义位置提取规则,所述的位置提取规则包括地名提取规则和空间关系提取规则。\n[0095] 本实施例的规则定义格式为:\n[0096] Rule RuleName for ConceptName=Concept_1(Name,ToObject,Condition,Repeat)ConnectorSymbol Concept_2(Name,ToObject,Condition, Repeat) ConnectorSymbol......ConnectorSymbol Concept_n(Name,ToObject,Condition,Repeat)where JudgeCondition;其中,RuleName是规则名称,ConceptName是该规则对应的位置概念,等号右边部分为规则体,规则体主要由位置概念(Concept_1,Concept_2,......,Concept_n)、概念连接符(ConnectorSymbol)、概念之间的限制条件(JudgeCondition)。\n对于规则体中的每个概念,指定其概念名称(Name),规则匹配成功后概念实例的赋值对象(ToObject),概念实例的限制条件(Condition),概念实例出现的次数(Repeat)。\n[0097] Name的格式为:\n[0098] #CP= 概念名;\n[0099] ToObject的格式为:\n[0100] #MB= 变量名;\n[0101] Repeat的格式为:\n[0102] #RT运算符数值\n[0103] Condition的书写格式为:\n[0104] #CD:概念编号.属性操作符属性值and......\n[0105] JudgeCondition的格式为:\n[0106] 概念编号1操作符概念编号2and......\n[0107] ConnectorSymbol是连接规则体中前后两个概念的,“+”表示普通连接(柔性连接),两个概念之间可以间隔其他字符,“&”表示紧密连接,两个概念之间不能间隔任何字符。\n[0108] 本实施例的规则定义示例如下:\n[0109] Rule CGN12for ComGName=A(#MB=sgnrefer,#CD:A.ClassName=ADMProvince)& B(#MB=sgname,#CD:B.ClassName=ADMVillage)where B in A。\n[0110] 步骤3:经过地名识别和空间关系识别,提取位置信息;其具体实现包括以下子步骤:\n[0111] 步骤3.1:根据地名词典,解析所述的地名提取规则,得到位置信息提取系统可理解的地名提取规则;\n[0112] 步骤3.2:将所述的地名提取规则与位置描述进行匹配,若匹配成功,则记录地名识别结果;\n[0113] 步骤3.3:根据所述的地名识别结果的字符起止位置、有效字数等信息,消除地名歧义,处理地名描述省略情况;\n[0114] 步骤3.4:根据所述的地名词典、地名识别结果,解析所述的空间关系提取规则,得到位置信息提取系统可理解的空间关系提取规则;\n[0115] 步骤3.5:将所述的空间关系提取规则与所述的位置描述进行匹配,若匹配成功,则记录空间关系识别结果和其中匹配到的有效字符;\n[0116] 步骤3.6:根据所述的地名词典、地名识别结果、已有空间关系识别结果,继续解析所述的空间关系提取规则;\n[0117] 步骤3.7:重复所述的步骤3.5和3.6的过程,直至匹配到的有效字符无增长;\n[0118] 步骤3.8:根据所述的记录空间关系识别结果的字符起止位置、有效字数等信息,消除所述的空间关系歧义;\n[0119] 步骤3.9:经过地名识别和空间关系识别,提取位置信息。\n[0120] 以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,因此,凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
法律信息
- 2022-06-10
未缴年费专利权终止
IPC(主分类): G06F 17/30
专利号: ZL 201310246368.1
申请日: 2013.06.20
授权公告日: 2016.03.16
- 2016-03-16
- 2013-10-23
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201310246368.1
申请日: 2013.06.20
- 2013-09-18
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2010-08-11
|
2010-04-21
| | |
2
| |
2013-05-01
|
2012-12-27
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |