著录项信息
专利名称 | 藏语句法和语义角色联合标注方法 |
申请号 | CN201310421074.8 | 申请日期 | 2013-09-16 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2013-12-11 | 公开/公告号 | CN103440236A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/27 | IPC分类号 | G;0;6;F;1;7;/;2;7查看分类表>
|
申请人 | 中央民族大学 | 申请人地址 | 北京市海淀区中关村南大街27号中央民族大学
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 中央民族大学 | 当前权利人 | 中央民族大学 |
发明人 | 邱莉榕 |
代理机构 | 北京科亿知识产权代理事务所(普通合伙) | 代理人 | 汤东凤 |
摘要
本发明涉及将少数民族文字处理成汉语的方法,尤其涉及一种藏语句法和语义角色联合标注方法。其包括下列步骤:a)单复句区分;b)语义角色标记;c)谓词识别;d)动词语义分类;e)句法结构标注;f)编辑修订语义角色标注结果。本发明提取藏语句法和语义特征,一方面,可以直接利用藏语的语法标记,标注句子中所表达的施事、受事、时间、地点、方式等语义角色信息;另一方面,针对谓词的语义角色标注结果,可以反作用于句法解析过程,减少句法标记不能唯一确定的影响,从而提高句处理系统的性能。
1.一种藏语句法和语义角色联合标注方法,其特征在于,包括下列步骤:
a)单复句区分:将长句划分为若干短句;
b)语义角色标记:格标记,包括语法角色成分、名物化标记或非谓动词组块标记,去除非标注内容;
c)谓词识别:针对谓词特征,确定谓词所属的语义结构类别是形容词谓语句或动词谓语句;
d)动词语义分类:针对动词后缀标记特征,确定动词语义结构类型;
e)句法结构标注:针对动词语义结构类型,利用浅层语义分析,筛选、识别语义角色,再次对语义结构类型分类;
f)编辑修订语义角色标注结果;
步骤b)标记在句子里充当施事、受事、涉事、领属、对象、目的、处所、材料、来源或工具的语法角色成分,去除语气词、指示代词、不定指示词、疑问代词、复数后缀或敬语语素,不考虑时态信息;
步骤b)中的名物化标记包括做事者或方式、方法、情形或手工、手艺、材料、事物或动作、有关事物或习惯、规则或态度、情况或心灵、精神或数量、标准、地方或时候或空闲或更迭、轮流或某方面;
步骤b)中的所述语法角色为Arg0-5,Arg0表示动作的施事,Arg1表示动作的影响,Arg2-5根据谓词确定为不同的语义含义;
步骤b)中的所述语法角色成分包括施事主语、领有主语、受事宾语、对象宾语、结果宾语、处所宾语、动词谓语和形容词谓语;
步骤c)中所述格标记包括通格或共同格、受格、施格、领有格、位格、与格、对象格、从属格、工具格、从格、结果格或使役格;
步骤d)中动词包括及物动词、不及物动词、自主动词、不自主动词、情态助动词、性状动词、动作动词、心理动词、感知动词、变化动词、趋向动词、述说动词、关系动词、领有动词、存在动词、互动动词、使役动词。
2.根据权利要求1所述的藏语句法和语义角色联合标注方法,其特征在于,步骤c)中所述谓词包括动词、助动词、动词后缀或语气词。
藏语句法和语义角色联合标注方法\n技术领域\n[0001] 本发明涉及将少数民族文字处理成汉语的方法,尤其涉及一种藏语句法和语义角色联合标注方法。\n背景技术\n[0002] 藏文信息处理领域研究内容百花齐放,在字、词和短语处理方面陆续取得了突破,句处理阶段的攻关已经开始。\n[0003] 语义分析是计算语言学领域最具挑战性的课题之一,也是制约语言信息技术大规模应用的主要瓶颈。语义分析就是根据句子结构和句中实词的词义,推导出句子的实际语义,这是句处理的主要目标。\n[0004] 语义角色标注的任务,就是找出句子中谓词的相应语义角色成分,如:施事、受事、时间、地点、方式等,这些成分的标注对于理解一个句子的语义起着重要作用。\n[0005] 句法分析是根据给定语法,推导出句子的语法结构,一是确定句子所包含的谱系结构,一是确定句子的组成成分。句法分析结果的表达形式是句法树。\n[0006] 一般的语义角色标注方法,是在给定句法树的情况下,研究如何应用于各种特征作用于机器学习算法。\n[0007] 传统的语义角色标注研究,一般是在句法处理基础上进行的。但是目前,很难获得藏语深层句法分析的结果。现有的藏文句法分析系统在通用领域的表现也不尽如人意。\n发明内容\n[0008] 针对现有技术上存在的不足,本发明提供一种藏语句法和语义角色联合标注方法。\n[0009] 为了实现上述目的,本发明是通过如下的技术方案来实现:\n[0010] 一种藏语句法和语义角色联合标注方法,其包括下列步骤:\n[0011] a)单复句区分:将长句划分为若干短句;\n[0012] b)语义角色标记:格标记,包括语法角色成分、名物化或非谓动词组块标记,去除非标注内容;\n[0013] c)谓词识别:针对谓词特征,确定谓词所属的语义结构类别是形容词谓语句或动词谓语句;\n[0014] d)动词语义分类:针对动词后缀标记特征,确定动词语义结构类型;\n[0015] e)句法结构标注:针对动词语义结构类型,利用浅层语义分析,筛选、识别语义角色,再次对语义结构类型分类;\n[0016] f)编辑修订语义角色标注结果。\n[0017] 上述的藏语句法和语义角色联合标注方法,其步骤b)标记在句子里充当施事、受事、涉事、领属、对象、目的、处所、材料、来源或工具的语法角色成分,去除语气词、指示代词、不定指示词、疑问代词、复数后缀或敬语语素,不考虑时态信息。\n[0018] 上述的藏语句法和语义角色联合标注方法,其步骤b)中的名物化标记包括做事者或方式、方法、情形或手工、手艺、材料、事物或动作、有关事物或习惯、规则或态度、情况或心灵、精神或数量、标准、地方或时候或空闲或更迭、轮流或某方面。\n[0019] 上述的藏语句法和语义角色联合标注方法,其步骤b)中的所述语法角色为Arg0-5,Arg0表示动作的施事,Arg1表示动作的影响,Arg2-5根据谓词确定为不同的语义含义。\n[0020] 上述的藏语句法和语义角色联合标注方法,其步骤b)中的所述语法角色成分包括施事主语、领有主语、受事宾语、对象宾语、结果宾语、处所宾语、动词谓语和形容词谓语。\n[0021] 上述的藏语句法和语义角色联合标注方法,其步骤c)中所述谓词包括动词、助动词、动词后缀或语气词。\n[0022] 上述的藏语句法和语义角色联合标注方法,其步骤c)中所述格标记包括通格或共同格、受格、施格、领有格、位格、与格、对象格、从属格、工具格、从格、结果格或使役格。\n[0023] 上述的藏语句法和语义角色联合标注方法,其步骤d)中动词包括及物动词、不及物动词、自主动词、不自主动词、情态助动词、性状动词、动作动词、心理动词、感知动词、变化动词、趋向动词、述说动词、关系动词、领有动词、存在动词、互动动词、使役动词。\n[0024] 有益效果:\n[0025] 本发明提取藏语句法和语义特征,一方面,可以直接利用藏语的语法标记,标注句子中所表达的施事、受事、时间、地点、方式等语义角色信息;另一方面,针对谓词的语义角色标注结果,可以反作用于句法解析过程,减少句法标记不能唯一确定的影响,从而提高句处理系统的性能。\n具体实施方式\n[0026] 为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。\n[0027] 本发明其包括下列步骤:\n[0028] a)单复句区分:将长句划分为若干短句;\n[0029] b)语义角色标记:格标记,包括语法角色成分、名物化或非谓动词组块标记,去除非标注内容;\n[0030] 根据藏语的格标记和语义角色标注需要,明确藏文的语义角色。核心的语义角色为Arg0-5,Arg0表示动作的施事(施事格),Arg1表示动作的影响(结果格),Arg2-5根据谓语动词不同会有不同的语义含义,增加部分附加语义角色,如ArgM-LOC(位格)。\n[0031] 标记在句子里充当施事、受事、涉事、领属、对象、目的、处所、材料、来源或工具的语法角色成分,去除语气词、指示代词、不定指示词、疑问代词、复数后缀或敬语语素,不考虑时态信息。\n[0032] 藏语具有丰富的格标记,与语义角色标注有关的有三十多种,如:施格、宾格、受益格、同类比较格、占有格、目的格等。有的格对应于一种语义角色(如施格);有的格标记可能对应于多个语义角色,或者一个语义角色对应多种格标记,如Arg1(结果格、受益格)等。\n[0033] c)谓词识别:针对谓词特征,确定谓词所属的语义结构类别是形容词谓语句或动词谓语句;\n[0034] 谓词词性主要区分形容词谓语句和动词谓语句,形容词谓语句根据句式特征识别,动词谓语句:与谓语动词相关的句法标记,如时、体后缀,语气词,助动词等。\n[0035] d)动词语义分类:针对动词后缀标记特征,确定动词语义结构类型;\n[0036] 基于动词后缀语义信息的句式分析。\n[0037] e)句法结构标注:针对动词语义结构类型,利用浅层语义分析,筛选、识别语义角色,再次对语义结构类型分类;\n[0038] f)编辑修订语义角色标注结果。\n[0039] 本发明中的标注内容包括:\n[0040] 1.句法成份标记\n[0041] \n施事主语 SUA Subject agent\n领有主语 SUP Subject possessive\n受事宾语 OBP Object patient\n[0042] \n对象宾语 OBT Object target\n结果宾语 OBD Object product\n处所宾语 OBL Object locative\n动词谓语 PRV Verb Predicate\n形容词谓语 PRA Adjective Predicate\n[0043] 2.句法中的格标记\n[0044] \n通格/共同格 ABS Absolutive\n受格 PAT patient\n施格 AGN agentive\n领有格 POS possessive\n位格 LOC locative\n与格 DAT dative\n对象格 OBJ objective\n从属格 GEN genitive\n工具格 INS instrumental\n从格 ABL ablative\n结果格/使役格 FAT factitive\n[0045] 3.名物化标记\n[0046] \n[0047] 4.动词标记\n[0048] \n及物动词 1级标记 VT transitive verb\n不及物动词 1级标记 VI intransitive verb\n自主动词 1级标记 VL volition verb\n不自主动词 1级标记 IVL in-volition verb\n情态助动词 1级标记 MAU modal auxiliary\n性状动词 2级标记 STA stative verb\n动作动词 2级标记 ACT action verb\n心理动词 2级标记 COG cognition verb\n感知动词 2级标记 PER perception verb\n变化动词 2级标记 CHA verb of change\n趋向动词 2级标记 DIR directional verb\n述说动词 2级标记 NAR narrate verb\n关系动词 2级标记 COU copula
法律信息
- 2015-12-09
- 2014-01-08
实质审查的生效
IPC(主分类): G06F 17/27
专利申请号: 201310421074.8
申请日: 2013.09.16
- 2013-12-11
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2012-09-12
|
2012-04-13
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |