著录项信息
专利名称 | 中文组块分析的方法及系统 |
申请号 | CN200710148214.3 | 申请日期 | 2007-08-27 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2009-03-04 | 公开/公告号 | CN101377770 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/27 | IPC分类号 | G;0;6;F;1;7;/;2;7查看分类表>
|
申请人 | 微软公司 | 申请人地址 | 美国华盛顿州
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 微软技术许可有限责任公司 | 当前权利人 | 微软技术许可有限责任公司 |
发明人 | 李沐;黄昌宁 |
代理机构 | 上海专利商标事务所有限公司 | 代理人 | 陆嘉 |
摘要
本发明提供一种中文组块分析的方法,能在相对较小的训练数据的基础上得到较精确的中文组块分析的结果,该中文组块分析方法利用了词的形态特征以及词的基于概率分布的相似性特征来作为标记模型的辅助的信息特征,以提高组块分析的准确度。该中文组块分析的技术能在训练数据量较小时有效提高组块分析的准确度,使得中文组块分析的应用能力得到很大的提高。
1.一种计算机辅助的中文组块分析的方法,包括:
定义组块类别;
基于预定的标记模型对一中文语句中的词进行标记,通过所述标记将语句中的词划分到不同的组块,其特征在于,所述预定的标记模型的信息特征包括下述的至少其中之一:
词的形态特征,其中所述形态特征包括词的长度和词的词缀中的至少一者;
基于概率分布的相似性特征,其中所述基于概率分布的相似性特征表示:一词w与一组预定类别c之间的相似程度;一词w与一组预定词的相似程度;一词w的周围词与一组预定词的相似程度,其中该一词w与一组预定类别c之间的相似程度通过下述的方式获得:
其中,sim(w,c)表示词w与预定类别c之间的相似程度;
tf(w)是该词w基于术语频率的特征向量;
tf(c)是该预定类别c基于术语频率的特征向量,tf(c)通过下述的方式而被构建,使用一虚拟词pwc替换属于预定类别c的所有词,并基于该虚拟词pwc构建该预定类别c基于术语频率的特征向量tf(c);
使用训练数据对上述的标记模型进行训练;以及
使用经过训练的标记模型对输入的中文语句进行组块分析。
2.如权利要求1所述的中文组块分析的方法,其特征在于,该词缀包括动词或者名词构成的前缀或者后缀。
3.如权利要求1所述的中文组块分析的方法,其特征在于,根据相似的程度,为每一个词w选择最相似的3个类别c。
4.如权利要求3所述的中文组块分析的方法,其特征在于,所述预定类别c包括:
名词短语NP的中心词np、动词短语VP的中心词vp、介词短语PP的中心词pp、复杂位置短语LCP的中心词lcp、度量词qpm、形容词短语ADJP的中心词adjp、副词短语ADVP的中心词advp、简单代词短语DP的中心词dp。
5.如权利要求1所述的中文组块分析的方法,其特征在于,包括:
使用条件随机场CRF作为标记模型;其中,该标记模型的信息特征包括:
基本信息特征;
附加信息特征。
6.如权利要求5所述的中文组块分析的方法,其特征在于,所述基本信息特征是选自下列的其中之一:
基于词的特征;
基于部分语境POS的特征;
基于词与部分语境POS的组合的特征。
7.如权利要求6所述的中文组块分析的方法,其特征在于,所述附加信息特征是选自下列的其中之一或者它们的组合:
基于词的长度的特征;
基于词的词缀的特征;
基于概率分布的相似性的特征。
8.如权利要求5所述的中文组块分析的方法,其特征在于,该条件随机场CRF标记模型中:
对于一给定的中文语句输入序列x=(x1,x2,…,xn)以及一可能的标记串y=(y1,y2,…,yn),序列x和y的条件随机场由一信息特征向量f和一对应的权重向量λ确定;
其中,每一个信息特征作为一状态特征s(y,x,i)或者一边缘特征t(yi-1,yi,x,i),其中yi-1和yi是标记串中的标记,x是输入的中文语句序列,i是输入位置;由条件随机场CRF定义的标记串y和输入的中文语句序列x之间的条件分布为:
其中,f表示状态特征s或者边缘特征t;F(Y,X)是条件随机场CRF的全局特征向量,Z(x)是标准化向量;
于是,对于输入的中文语句序列x来说,具有最大条件概率的标记序列y为:
9.一种计算机辅助的中文组块分析的系统,包括:
组块类别定义装置,定义组块类别;
一预定的标记模型,该标记模型对一中文语句中的词进行标记,通过所述标记将语句中的词划分到不同的组块,其特征在于,所述预定的标记模型的信息特征包括下述的至少其中之一:
词的形态特征;
基于概率分布的相似性特征;
其中,在构建所述标记模型后,使用训练数据对所述标记模型进行训练;并使用经过训练的标记模型对输入的中文语句进行组块分析,
其中所述系统还包括以下中的至少一者:
词长度确定装置,确定词的长度并作为形态特征提供给所述标记模型;
词缀确定装置,确定词的词缀并作为形态特征提供给所述标记模型;
并且其中所述系统还包括基于概率分布的相似性确定装置,所述基于概率分布的相似性确定装置产生一基于概率分布的相似性特征并提供给所述标记模型,该基于概率分布的相似性特征包括:一词w与一组预定类别c之间的相似程度;一词w与一组预定词的相似程度;一词w的周围词与一组预定词的相似程度,该基于概率分布的相似性确定装置采用下述的方式获得一词w与一组预定类别c之间的相似程度:
其中,sim(w,c)表示词w与预定类别c之间的相似程度;
tf(w)是该词w基于术语频率的特征向量;
tf(c)是该预定类别c基于术语频率的特征向量,tf(c)通过下述的方式而被构建,使用一虚拟词pwc替换属于预定类别c的所有词,并基于该虚拟词pwc构建该预定类别c基于术语频率的特征向量tf(c)。
10.如权利要求9所述的中文组块分析的系统,其特征在于,该词缀确定装置确定的词缀包括动词或者名词构成的前缀或者后缀。
11.如权利要求9所述的中文组块分析的系统,其特征在于,该基于概率分布的相似性确定装置根据相似的程度,为每一个词w选择最相似的3个类别c。
12.如权利要求11所述的中文组块分析的系统,其特征在于,所述预定类别c包括:
名词短语NP的中心词np、动词短语VP的中心词vp、介词短语PP的中心词pp、复杂位置短语LCP的中心词lcp、度量词qpm、形容词短语ADJP的中心词adjp、副词短语ADVP的中心词advp、简单代词短语DP的中心词dp。
13.如权利要求9所述的中文组块分析的系统,其特征在于,该系统包括:
CRF标记模型,使用条件随机场CRF作为标记模型;其中,该标记模型的信息特征包括:
基本信息特征;
附加信息特征。
14.如权利要求13所述的中文组块分析的系统,其特征在于,所述基本信息特征是选自下列的其中之一:
基于词的特征;
基于部分语境POS的特征;
基于词与部分语境POS的组合的特征。
15.如权利要求14所述的中文组块分析的系统,其特征在于,所述附加信息特征是选自下列的其中之一或者它们的组合:
由一词长度确定装置提供的词的长度的特征;
由一词缀确定装置提供的词的词缀的特征;
由一基于概率分布的相似性确定装置提供的词的基于概率分布的相似性的特征。
16.如权利要求13所述的中文组块分析的系统,其特征在于,CRF标记模型使用条件随机场CRF作为标记模型,其中:
对于一给定的中文语句输入序列x=(x1,x2,…,xn)以及一可能的标记串y=(y1,y2,…,yn),序列x和y的条件随机场由一信息特征向量f和一对应的权重向量λ确定;
其中,每一个信息特征作为一状态特征s(y,x,i)或者一边缘特征t(yi-1,yi,x,i),其中yi-1和yi是标记串中的标记,x是输入的中文语句序列,i是输入位置;由条件随机场CRF定义的标记串y和输入的中文语句序列x之间的条件分布为:
其中,f表示状态特征s或者边缘特征t;F(Y,X)是条件随机场CRF的全局特征向量,Z(x)是标准化向量;
于是,对于输入的中文语句序列x来说,具有最大条件概率的标记序列y为:
中文组块分析的方法及系统\n技术领域\n[0001] 本发明涉及计算机辅助的浅层句法分析领域,更具体地说,涉及一种中文组块分析的方法及系统。\n背景技术\n[0002] 利用计算机辅助进行语言的转换和分析,已经越来越成为一个重要的课题。计算机的高速度、高准确率和持续工作的能力能够很好地帮助人们从复杂繁重的语言转换及分析工作中解脱出来。但是,语言,特别是人们日常生活中使用的自然语言有其独特的组合方式。每一种语言都有自己的语法规范以及习惯性的短语,语法、短语、词组和单词的结合才是真正的自然语言。然而,对于计算机来说,实现单词、甚至是短词组的转换和分析是相对简单的,并且已经被实现并得到广泛的应用。但是,当分析短语和句子时,就会产生很多的问题。\n[0003] 在一个短语或者是句子中,单个的词组会充当不同的成分,并且,几个词组会互相结合构成短语,词组、短语按照语法规则组合形成句子。这时,短语和句子所要表达的意思和简单地单个词组含义的叠加是完全不同的。这就给计算机辅助的语言分析及转换工作带来了困难。由于无法对短语、句子这些复杂语言结构进行有效的识别和理解,计算机往往会根据单个词汇的含义去解释一个句子,从而使得计算机理解的含义与自然语言中句子的本意差距巨大。\n[0004] 为了解决这个问题,句法分析的技术被提出。句法分析技术包括两种,一种是全句法分析(Full parsing),另一种是浅层句法分析(Shallowparsing)。全句法分析的目的在于完整地解析一个语句,就好比是人在理解一个句子一样,能够分析出一个语句的句子成分、语法结构。很遗憾的是,虽然目前在全句法分析中进行了大量的研究,但是全句法分析算法复杂,运行速度缓慢、需要使用大量的资源,并且,分析结果的正确率十分低。因此,目前全局法分析上不具备实际应用的前景。\n[0005] 相比较而言,浅层句法分析是一种简单有效的语言分析方法,其能快速有效地从自然语言的语句中提取出语法信息,借助于这些提取的语法信息,进行语言的组块分析。浅层句法分析并不需要对句子的成分、语法进行分析,只是获取一些与语法、尤其是短语和词组有关的信息。\n[0006] 语言组块分析(chunking)技术是浅层语法分析中常用的技术。语言组块技术能根据预定的模型将句子分解为组分,这些组分主要是短语以及较长的词组,从而使得计算机对于句子的理解可以从单个字、词的层面上升到信息量更大的短语、词组,更加接近自然语言。为了之后处理的方便,以及提供可能的其他扩展应用,语言组块分析技术会将一个句子(输入语句序列)转换成一个标记串,也就是说,为句子中的每一个词都赋予一个或着几个标记,这些标记表明了这个词应该属于句子中的哪一个组块。\n[0007] 在之前的研究中,大多数的语言组块分析技术是针对英语,随着中文系统的开发以及中文在计算机上使用的普及,对于中文也需要组块分析的技术。\n[0008] 由于中文的字、词组、短语、语法与英语完全不同,因此针对英语开发的语言组块分析技术根本无法应用到中文上。针对中文系统,必须重新开发适合中文的中文组块分析技术。\n[0009] 随着中文句法树库的出现,使得中文的句法、短语有了一个有组织的分类,也给中文组块分析技术的开发提供了有利的帮助。目前,最新的中文句法树库是CTB(Chinese Treebank)5.0,本发明的示例性描述都将以CTB 5.0为例进行说明。\n[0010] 对于计算机辅助的语言分析技术来说,无论是英语组块分析还是中文组块分析,其所面临的最大问题就是训练数据量相对不足。计算机辅助的语言分析技术是一种基于统计和概率的分析技术,通过对已知数据(训练)的分析,得到一个能够反映该种语言的模型,之后,在使用时,用该模型来对未知的数据(应用数据)进行分析。组块分析的质量与组块分析的准确度直接相关,而该准确度很大程度上与得到的模型有关。训练数据的量越大,越能得到好的模型。但是,在实际的应用中,理想数量的训练数据几乎是不可能得到的,尤其对于中文这种复杂的语言来说,理想数量的训练数据数据量巨大,根本无法在实际应用中实现。\n[0011] 为了能从数量有限的训练书中得到将可能好的模型(对于语言组块分析而言,就是得到最能够反映所输入的语句序列的标记序列),已经进行了很多的探索。这些探索的重点都在于如何找到一种好的标记模型。\n[0012] 通常,标记模型会利用到下面的这些特征:词特征、部分语境(POS)特征、结合词与部分语境的特征。其中最常用的是基于部分语境(POS)的特征和结合词与部分语境的特征。\n[0013] 但是,实验的结果表明,即使目前是数据量最丰富的中文句法树库CTB5.0,其数据量对于获得精确的中文分组模型、以及精确的部分语境(POS)标记来说都是不够的。当训练数据量不足时,中文的部分语境(POS)标记会显示出明显的弱点,错误的中文部分语境(POS)标记会从这些训练数据中产生,并为中文组块分析模型所利用。使用不正确的中文部分语境(POS)标记的中文组块分析模型会带来意想不到的错误结果,使得中文组块分析的整体性能严重下降。\n[0014] 在不使用POS标记的完全基于词的特征的组块分析模型中,由于POS错误而带来的性能的下降会被减轻,但是中文句法树库CTB 5.0对于这种组块分析模型来说训练数据量依然是不足的,所以完全基于词的特征的组块分析模型也面临训练数据量不足的问题。\n[0015] 于是,如何能在相对较少的训练数据的基础上得到比较精确的中文组块分析的结果,是本领域内重点研究的一个问题。\n发明内容\n[0016] 本发明提供一种中文组块分析的方法,能在相对较小的训练数据的基础上得到较精确的中文组块分析的结果,该中文组块分析方法利用了词的形态特征以及词的基于概率分布的相似性特征来作为标记模型的辅助的信息特征,以提高组块分析的准确度。\n[0017] 在一个实施例中,利用了词的长度。在一个实施例中,利用了词的词缀。在一个实施例中,利用了基于概率分布的相似性,该基于概率分布的相似性表示了一词w与一组预定类别c之间的相似程度、一词w与一组预定词的相似程度、以及一词w的周围词与一组预定词的相似程度。在另一个实施例中,利用了上述写特征的组合。\n[0018] 在一个实施例中,一中文组块分析的方法被实现如下:定义组块类别;使用条件随机场CRF作为标记模型;其中,该标记模型的信息特征包括:基本信息特征、附加信息特征;\n使用训练数据对上述的标记模型进行训练;使用经过训练的标记模型对输入的中文语句进行组块分析。\n[0019] 在一个实施例中,基本信息特征包括:基于词的特征、基于部分语境POS的特征、基于词与部分语境POS的组合的特征的其中之一。附加信息特征包括:由一词长度确定装置提供的词的长度的特征、由一词缀确定装置提供的词的词缀的特征、由一基于概率分布的相似性确定装置提供的词的基于概率分布的相似性的特征的其中之一或者是它们的组合。\n[0020] 本发明还提供一种能实现上述的中文组块分析的系统。\n[0021] 该中文组块分析的技术能在训练数据量较小时有效提高组块分析的准确度,使得中文组块分析的应用能力得到很大的提高。\n附图说明\n[0022] 本发明的上述的以及其他的特征、性质和优势将通过下面结合附图对实施例的描述而变得更加明显,在附图中,相同的附图标记始终表示相同的特征,其中:\n[0023] 图1是可实现本发明的适当的计算系统环境的一示例;\n[0024] 图2a示出了根据本发明的一实施例的中文组块分析方法的流程图;\n[0025] 图2b-图2e示出了图2a所示的实施例的变化例;\n[0026] 图3a示出了根据本发明的一实施例的中文组块分析系统的结构图。\n[0027] 图3b-图3f示出了图3a所示的实施例的变化例。\n具体实施方式\n[0028] 适当的实现环境\n[0029] 图1说明了适当的计算系统环境100的一例,其中可以实现本发明。计算系统环境\n100仅是适当的计算环境的一例并且并非意图限制本发明的使用范围或功能。计算环境100不应被解释为具有与示例性操作环境100中所述的组件的任一或组合有关的从属性或要求。\n[0030] 本领域的技术人员可以理解,计算机或其它客户机或服务器设备可以作为部分计算机网络而采用,或者用于分布式计算环境中。在这点上,本发明属于具有任意数量内存或存储单元的任意计算机系统,以及发生在任意数量存储单元或容量上的任意数量的应用程序和过程,它们可以与本发明一起使用。本发明可以应用于在网络环境或分布式计算环境中采用服务器计算机和客户机计算机的环境。本发明还可以用于独立计算设备,具有编程语言功能、以及与远程或本地服务一起产生、接收和发射信息的解译和执行能力。\n[0031] 本发明可以用多种其它通用或专用计算系统环境或配置来操作。可以适合与本发明一起使用的公知计算系统、环境和/或配置的示例包括、但不限于:个人计算机、服务器计算机、手提或便携式设备、多处理器系统、基于微处理器的系统、机顶盒、可编程用户电子设备、网络PC、小型计算机、大型计算机、包括任一上述系统的分布式计算环境等等。\n[0032] 本发明可以用计算机可执行指令的一般上下文来描述,譬如由计算机执行的程序模块。一般而言,程序模块包括例程、程序、对象、组件、数据结构等,它们执行特定任务或实现特定的抽象数据类型。本发明还可以实际用于分布式计算环境中,其中由通过通信网络或其它数据传输媒质连接的远程处理设备来执行任务。在分布式计算环境中,程序模块及其它数据可以位于本地和远程存储媒质中,包括内存存储设备。分布式计算通过计算设备和系统间的直接交换便于共享计算机资源和服务。这些资源和服务包括信息、高速缓存、及文件磁盘存储的交换。分布式计算利用网络连接性,允许用户机发挥它们的集体功效来有利于整个公司。在这点上,多种设备可以具有应用程序、对象或资源,它们可以利用本发明的技术。\n[0033] 参考图1,用于实现本发明的示例性系统包括形式为计算机110的通用计算设备。\n计算机110的组件可以包括、但不限于:处理单元120、系统内存130、及把包括系统内存在内的各种系统组件耦合至处理单元120的系统总线121。系统总线121可以是多种类型总线结构的任一种,包括内存总线或内存控制器、外围设备总线、及使用任一多种总线结构的本地总线。通过示例但非限制,这种结构包括工业标准结构(ISA)总线、微通道结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准联盟(VESA)本地总线、及外围组件互连(PCI)总线(也称为Mezzanine总线)。\n[0034] 计算机110一般包括各种计算机可读媒质。计算机可读媒质可以是能由计算机110访问的任何可用媒质并包括易失性和非易失性的媒质、可移动和不可移动媒质。通过示例但非限制,计算机可读媒质可以包括计算机存储媒质和通信媒质。计算机存储媒质包括易失性和非易失性、可移动和不可移动媒质,它们以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据这样的信息的任意方法或技术来实现。计算机存储媒质包括、但不限于:RAM、ROM、EEPROM、闪存或其它存储技术、CDROM、数字化通用光盘(DVD)或其它光盘存储器、磁带盒、磁带、磁盘存储器或其它磁性存储设备、或用于存储期望信息并能由计算机\n110访问的任意其它媒质。通信媒质一般在诸如载波或其它传输机制这样的已调数据信号中包含计算机可读指令、数据结构、程序模块或其它数据,并且包括任意信息传递媒质。术语“已调数据信号”意指其一个或多个特性以对信号内信息进行编码的方式被设置或改变的信号。通过示例但非限制,通信媒质包括诸如有线网络或直接线连接这样的有线媒质、以及诸如声音、RF、红外这样的无线媒质及其它无线媒质。上述的任意组合应该包含在计算机可读媒质的范围内。\n[0035] 系统内存130包括计算机存储媒质,其形式为易失性和/或非易失性内存,譬如只读内存(ROM)131和随机存取内存(RAM)132。基本输入/输出系统133(BIOS)一般存储在ROM \n131内,它包含例如启动期间帮助在计算机110内的组件间传输信息的基本例程。RAM 132一般包含数据和/或程序模块,它们可以立即访问并且/或者当前由处理单元120在其上操作。\n通过示例但非限制,图1说明了操作系统134、应用程序135、其它程序模块136和程序数据\n137。\n[0036] 计算机110还可以包括其它可移动/不可移动、易失性/非易失性计算机存储媒质。\n仅仅通过示例,图1说明了对不可移动、非易失性磁性媒质进行读写的硬盘驱动器141、对可移动、非易失性磁盘152进行读写的磁盘驱动器151、以及对可移动、非易失性光盘156进行读写的光盘驱动器155,譬如CD ROM或其它光学媒质。示例性操作环境中可用的其它可移动/不可移动、易失性/非易失性计算存储媒质包括、但不限于:磁带盒、闪存卡、数字通用盘、数字视频磁带、固态RAM、固态ROM等等。硬盘驱动器141一般通过如接口140这样的不可移动存储器接口与系统总线121相连,且磁盘驱动器151和光盘驱动器155一般用如接口150这样的可移动存储器接口与系统总线121相连。\n[0037] 上面讨论并在图1中说明的驱动器和它们的相关计算机存储媒质为计算机110提供了计算机可读指令、数据结构、程序模块和其它数据的存储。在图1中,例如,所述硬盘驱动器141存储操作系统144、应用程序145、其它程序模块146和程序数据147。注意到这些组件或者可与操作系统134、应用程序135、其它程序模块136和程序数据137相同,或者与它们不同。这里为操作系统144、应用程序145、其它程序模块146和程序数据147给出不同数字以说明它们至少是不同的副本。用户可以通过诸如键盘162和指示设备161这样的输入设备把命令和信息输入到计算机110中,输入设备通常称为鼠标、轨迹球或触板。其它输入设备(未示出)可以包括麦克风、游戏杆、游戏板、卫星式转盘、扫描仪等等。这些和其它输入设备经常通过与系统总线121耦合的用户输入接口160与处理单元120相连,但也可以用其它接口和总线结构连接,譬如并行端口、游戏端口或通用串行总线(USB)。监视器191或其它类型的显示设备也通过诸如视频接口190这样的接口与系统总线121相连。除了监视器191之外,计算机还可以包括其它外部设备,如扬声器197和打印机196,它们可以通过输出外设接口190连接。\n[0038] 计算机110可以工作在联网环境中,该环境使用与诸如远程计算机180这样的一个或多个远程计算机之间的逻辑连接。远程计算机180可以是个人计算机、服务器、路由器、网络PC、对等设备或其它公共网络节点,并且一般包括上述与计算机110有关的许多或全部元件,尽管图1中仅说明了内存存储设备181。图1所述的逻辑连接包括局域网(LAN)171和广域网(WAN)173,但可以还包括其它网络。这种联网环境在办公室、企业范围计算机网络、企业内联网和互联网中是常见的。\n[0039] 当用于LAN联网环境中时,计算机110通过网络接口或适配器170与LAN 171相连。\n当用于WAN联网环境中时,计算机110一般包括用于在诸如互联网这样的WAN 173上建立通信的调制解调器172或其它装置。调制解调器172可以是内部或外部的,它可以通过用户输入接口160或其它适当机制与系统总线121相连。在网络化环境中,关于计算机110所述的程序模块或其部分可以存储在远程内存存储设备中。通过示例但非限制,图1说明了驻留在内存设备181上的远程应用程序185。可以理解,所示网络连接是示例性的,也可以使用在计算机间建立通信连接的其它装置。\n[0040] 中文组块的定义\n[0041] 如前面所介绍的,由于对于英语的组块分析技术开发的相对比较早,因此对于英语来说,已经建立了诸如CoNLL-2000(San and Bochholz,2000,Introduction to the CoNLL-2000 Shared Task:Chunking)共享项目这样的著名的英语组块分析标准。并且,在这个通用的组块分析标准的基础上,还开发了准确度较高的基于英语部分语境(POS)的标记方式,称之为黄金标准(gold-standard)。使用黄金标准的英语部分语境(POS)标记模型,可以得到性能良好的英语组块分析系统。但是,英语的组块分析标准不能被直接用于中文组块分析。英语的语法与中文完全不同,比如在CTB 5.0中就定义了许多中文独有的语法、短语。这些特性使得适用于英语的POS标记模型和黄金标准POS标记模型都不能被用于中文的组块分析中。由于目前中文组块分析没有像英语那样具有通用的分析标准,因此,不同的研究人员都是使用各自的标准进行分析,这就使得目前并不存在中文的“黄金标准”。不管是哪一种现行的中文组块分析方式,都没有能够克服在训练数据量偏小时组块分析准确率低的问题。\n[0042] 正如上面所说的,本发明利用了辅助的信息特征来提高在训练数据量偏小时组块分析的准确率。这些辅助信息与一些基本信息特征结合使用,使得组块分析的准确率得到明显的提高。\n[0043] 在一实施例中,提供下述的11种组块作为组块分析的基础,参考表1所示,这11种组块分别是:\n[0044]\n[0045] 表1\n[0046] 其中,地字短语表示带“地”字的短语,即用于修饰动词的短语。复杂位置短语表示多重限定的代表方位的短语。\n[0047] 上述的11种组块基本与Li等人在2004年所提出的中文组块定义类似(H.Li,C.Huang,J.Gao and X.Fan,2004 Chinese chunking withAnother Type of Spec)。其所遵循的一个原则是尽量选用平均长度较长的组块,尽管平均长度较长的组块在实现上的难度比较大,但是其具有较好的准确率。据一个例子说明,将一个形容词和被该形容词修饰的名词标记为一个名词短语,其效果比分别标记一个形容词和一个名词要好。基于上述的原则,结合CTB 5.0中所提供的短语等级,在该实施例中,提供上述的11种组块。\n[0048] 需要说明的一点是,上述的11种组块与Li等人所揭示的中文组块定义相比较,存在下述的不同点:\n[0049] 1)在该实施例中,不考虑副词+动词的组合短语,副词可以和其修饰的动词组合形成副词+动词组合短语,但是这种短语的数量巨大,并且种类繁多,会使得副词+动词组合短语这个类别变得十分得复杂,从而使得整个的句法树库结构变得复杂,反而会降低中文组块分析的效率。\n[0050] 2)在Li等人的方案中,简单坐标结构(simple coordination structure)和复杂坐标结构(complex coordination structure)被区别处理。而在该实施例中,对于坐标结构的提取是基于对树结构的分析。\n[0051] 基于条件随机场的标记模型\n[0052] 正如上面所说的,语言的组块分析可以理解为对一个语句输入序列中的所有词进行标记。这些标记反映了一个词在一个语句中所处的组块,以及在该组块中所处的位置。在完成对一个语句中的所有词的标记之后,基本就能理解如何对该语句进行分割,从而就实现了语句的组块分析。\n[0053] 在San and Bochholz的CoNLL-2000中揭示了一种对于英语组块分析的标记方法,即称为基于IOB的标记方法。类似的,在一实施例中,也会使用同样原理的标记方法。\n[0054] 比如,对于一个名词短语NP来说,其中的第一个词会被标记为B-NP(beginning of NP),表示这是名词短语NP的开始。而对于名词短语NP中的其他所有词来说,将会被标记为I-NP(inside NP),表示这个词位于名词短语NP中。\n[0055] 类似的,对于上述的11个种类的组块中的每一个,都会产生“B-”和“I-”两种标记。\n对于不属于上述11个种类中的任何一个的词,会被标记为“O”(out-of chunk),表示这个词没有被划分到任何一个组块中。于是,在一实施例中,总共会用到23个标记。\n[0056] 上述的23个标记可以认为是基本的标记,后面还会描述表达信息特征的标记,通过这些标记,就能够把一个输入的语句序列中的每一个词都使用至少一个标记来表示。本发明通过增加辅助的信息特征,使得每一个词可以被更加有效地标记,从而提高组块分析的准确率。\n[0057] 对于输入的序列来说,是语句输入序列,对于语句序列中的每一个词,设定了一系列的信息特征,以帮助进行组块分析,下面要讨论的,就是如何基于输入的序列和设定的信息特征来得到每一个词的标记。\n[0058] 在一实施例中,使用条件随机场CRF来构建标记模型。有关CRF的描述可以参考Lafferty等人2001年的文献(J.Lafferty,A.McCallum andF.Pereira,2001 Conditional Random Field:Probabilistic Models forSegmenting and Labeling Sequence Data)。\n利用CRF可以有效地克服MEMM中的标记偏差的问题。通过实验表明,在自然语言领域,CRF无论在英语的组块分析还是中文的组块分析中,都具有良好的表现,是一种性能良好的标记模型。有关CRF在英语的组块分析中的表现,参考Sha等人2003年的文献(F.Sha and F.Pereira,2003,Shallow Parsing withConditional Random Fields)。有关CRF在中文的组块分析中的表现,参考Tan等人2005年的文献(Y.Tan,T.Yao,Q.Chen and J.Zhu,2005,Applying Conditional Random Fields to Chinese Shallow Parsing)。\n[0059] CRF定义了对于一给定的中文语句序列,其标记串的条件概率分布p(Y|X)。根据一实施例,对于一给定的中文语句输入序列x=(x1,x2,…,xn)以及一可能的标记串y=(y1,y2,…,yn),序列x和y的条件随机场由一信息特征向量f和一对应的权重向量λ确定;\n[0060] 其中,每一个信息特征作为一状态特征s(y,x,i)或者一边缘特征t(yi-1,yi,x,i),其中yi-1和yi是标记串中的标记,x是输入的中文语句序列,i是输入位置;由条件随机场CRF定义的标记串y和输入的中文语句序列x之间的条件分布为:\n[0061]\n[0062]\n[0063]\n[0064] 其中,f表示状态特征s或者边缘特征t;F(Y,X)是条件随机场CRF的全局特征向量,Z(x)是标准化向量;\n[0065] 于是,对于输入的中文语句序列x来说,具有最大条件概率的标记序列y为:\n[0066]\n[0067] 得到了最大条件概率的标记序列y,就得到了对于输入的中文语句序列中每一个词的标记,同时,也就完成了对于该中文语句序列的组块分析。\n[0068] 标记模型的信息特征\n[0069] 对于本领域的技术人员来说,在提供了信息特征和输入语句序列的情况下,利用一个标记模型对数据语句序列中的词进行标记是熟知的技术。本发明的重点在于提供了新的信息特征,使得标记模型变得更加有效。\n[0070] 根据一实施例,利用的信息特征包括两个大类,第一类是和目前的组块分析技术使用的信息特征类似的特征,此处称之为基本信息特征。另一类是本发明所提供的附加信息特征,包括:词的长度的特征、词缀的特征、以及基于概率分布的相似性的特征。\n[0071] 基本信息特征\n[0072] 根据一实施例,基本信息特征包括:\n[0073] 1)基于词的特征:\n[0074] 参考表2所示的,可以考虑一个词以及其周围的词。通常,当前的词被记作w0,左边的第一个词被记作-1,左边的第二个词被记作-2,右边的第一个词被记作1,右边的第二个词被记作2。根据所选取的窗口大小的不同(即考虑当前词w0左右的词的数量的不同),可以得到不同的标记效果。需要说明的是,该基于词的特征是本领域的技术人员所熟知的内容,并且已经被广泛地使用,所以这里不详细进行说明。对于本领域的技术人员来说,表2的所记载的内容代表的含义是十分清楚地。\n[0075]\n[0076] 表2\n[0077] 2)基于部分语境POS的特征;\n[0078] 参考表3所示的,同样可以考虑一个词以及其周围的词。pn表示词wn的部分语境POS。与前面所说的,该基于部分语境POS的特征是本领域的技术人员所熟知的内容,并且已经被广泛地使用,所以这里不详细进行说明。对于本领域的技术人员来说,表3的所记载的内容代表的含义是十分清楚地。\n[0079]\n[0080] 表3\n[0081] 3)基于词与部分语境POS的组合的特征:\n[0082] 参考表4所示的,基于词与部分语境POS的组合的特征。同样,基于词与部分语境POS的组合的特征是本领域的技术人员所熟知的内容,并且已经被广泛地使用,所以这里不详细进行说明。对于本领域的技术人员来说,表4的所记载的内容代表的含义是十分清楚地。\n[0083]\n[0084] 表4\n[0085] 对于上述的基本信息特征,可以参考下述的参考文献:\n[0086] X.Luo,2003 A Maximum Entropy Chinese Character-Based Parser.\n[0087] H.Ng and L.Low,2004 Chinese Part-of-Speech Tagging:One-at-a-Time or All-at-Once?Word-Based or Character-Based?\n[0088] H.Phan and M.Nguyen,2005 FlexCRFs:Flexible ConditionalRandom Field toolkit.\n[0089] 上述的内容对于本领域的技术人员来说是十分熟悉的,因此这里不再详细地描述。\n[0090] 附加信息特征\n[0091] 根据中文语句的特点,在一实施例中,增加了两个信息特征来提高标记模型的准确率。这两个特征的其中之一是词的形态特征,另一个是基于概率分布的相似性特征。词的形态特征可以提供基于自然语言常识的潜在的语法规则,从而帮助组块分析的进行。而基于概率分布的相似性可以提供统计学上的信息,帮助组块分析。\n[0092] 词的形态特征:\n[0093] 1)词的长度\n[0094] 绝大多数的中文词都是少于3个字符的,大于3个字符的词,多是词组、短语或者专有名词。专有名词包括被命名的实体(国家、城市、公司、组织、地理名词等等)、数字、成语、俗语等。\n[0095] 在一实施例中,将词的长度分为6类,分别是:\n[0096] 外来语,表示外来字符,用fw表示;\n[0097] 长度为1的词,用fL1表示;\n[0098] 长度为2的词,用fL2表示;\n[0099] 长度为3的词,用fL3表示;\n[0100] 长度为4的词,用fL4表示;\n[0101] 长度大于4的词,用fother表示。\n[0102] 对于一个词来说,其应当属于其中的一类,对于一个词来说,该词长度标记具有6个字段,分别是用于fw、fL1、fL2、fL3、fL4以及fother。其中,该词所属的类的字段会被置为1,而其他的字段被置0。比如,对于词“办事处”,词的长度为3,因此fL3=1,其他的字段为0。\n[0103] 2)词缀\n[0104] 在中文语句中,词缀是构成复合词的一个重要特征。中文中,动词+名词可以构成一个新的名词。如果分析这样的复合词,可以认为其具有一个动词前缀和一个名词后缀。\n[0105] 有关中文词缀的分析可以参考Tseng等于2005年提出的文献(H.Tseng,\nD.Jurafsky and C.Manning,2005,Morphological FeaturesHelp POS Tagging of Unknown Words across Language Varieties)。在一实施例中,使用的词缀来自于标准的常用名词词缀和动词词缀。由于由名词词缀和动词词缀构成的复合词占据了复合词的绝大多数,因此,综合考虑运行消息和模型复杂性,只考虑动词和名词的词缀。需要说明的是,在另一个实施例中,也加入了形容词词缀。对于本领域的技术人员来说,根据需要加入其他的词缀(前缀或者是后缀)都是可以预见的。本发明的范围应当是覆盖了所有使用词缀来帮助提高组块分析的准确率的范围。\n[0106] 在一实施例中,会建立一词缀表,收集了常用名词词缀和动词词缀,并为每一个词设定了4个标记:\n[0107] fv-prefix,表示动词前缀;\n[0108] fv-suffix,表示动词后缀;\n[0109] fn-prefix,表示名词前缀;\n[0110] fn-suffix,表示名词后缀。\n[0111] 对于一个词来说,该词缀标记具有4个字段,对于一个词来说,如果其具有上述4个词缀标记中的一个或者数个,则将该标记设置为1,其余的标记设置为0。举例说明,对于复合词“建设厅”、“办事处”,其中“建设”和“办事”是动词前缀、“厅”和“处”是名词后缀,因此对于“建设厅”和“办事处”这两个复合词来说,词缀标记都是:\n[0112] fv-prefix=1\n[0113] fv-suffix=0\n[0114] fn-prefix=0\n[0115] fn-suffix=1。\n[0116] 基于概率分布的相似性特征\n[0117] 本发明所利用的另一个附加的信息特征是基于概率分布的相似性特征。在语言中,存在着同义词或者近义词的情况,中文也是如此。意思接近的词中,由于地区、使用习惯的关系,有的词的出现频率较高,有的词的出现频率较低。出现频率较低的词在训练数据中出现的频率同样比较低,或者是不出现,这就给计算机的组块分析带来了困难。当遇到生词时,组块分析通常会出现错误。\n[0118] 比如,在训练数据中出现了“计算机”,但是当遇到“电脑”这个词是,组块分析就会遇到困难,因为“电脑”是个生词,没有在训练数据中出现过,也就很有可能无法被正确的标记。但是,如果可以通过一种方式使得计算机知道,“电脑”就是训练数据中出现过的“计算机”,那组块分析就能顺利地进行下去,并却准确率也会比较高。\n[0119] 对于同义词或者近义词来说,其本身有一个特点,就是它们应当可以相互替换,也就是说,这些词的词性、在语句中所处的位置、周围词的词性都应当是相似的。基于上述的特性,在一实施例中,利用统计数据来分析、查找一个词的同义词或者是近义词,如果同义词或者近义词在训练数据中出现过,那么对于该词就能采用类似的方法进行组块分析。由于组块分析属于浅层句法分析,只是将语句分割成短语或者是较长的词组,因此利用同义词和近义词可以比较准确地提供组块分析的相关信息,从而将一个生词进行准确地分析。\n[0120] 根据一实施例,利用基于概率分布的相似性特征来实现对于同义词或者是近义词的寻找。有关基于概率分布的相似性,是一项成熟的技术,有关基于概率分布的相似性的介绍可以参考现有的技术文献。基于概率分布的相似性可以在没有被标记过的数据中进行,因此,对于基于概率分布的相似性,不会出现训练数据不足的情况,可以选取任意的中文段落作为训练数据。\n[0121] 根据一实施例,基于概率分布的相似性特征包括如下的3个方面:\n[0122] 1)一词w与一组预定类别c之间的相似程度。此处,首先考虑一词w的词性。比如,上述的“电脑”,其同义词是“计算机”。如果简单比较“电脑”和“计算机”,似乎没有接近之处,但是,如果分析词性,这两个词都是属于名词短语。\n[0123] 2)一词w与一组预定词的相似程度。同义词和近义词的一个特点它们会在类似的句子结构中被使用,并且其周围的词也会比较接近。比如“计算机软件”和“电脑软件”,在“计算机”和“电脑”的右边都是“软件”。因此,考虑词w所出现的位置,以及词w其前后所出现的词语,也是寻找相似性的有效手段。\n[0124] 3)一词w的周围词与一组预定词的相似程度。更进一步,同义词与其周围词与构成的复合短语,具有类似的词性结构,并且周围词也可能是同义词或者近义词。比如,“计算机软件”、“计算机程式”、“电脑软件”、“电脑程式”,其中的“计算机”和“电脑”是同义词、“软件”和“程式”也是同义词,并且,所有复合短语都是名词短语+名词短语的结构。\n[0125] 下面将详细描述基于概率分布的相似性的一个实现实例。\n[0126] 首先,考虑一词w与一组预定类别c之间的相似程度。在一个实施例中,组块被分成了11类,参考上面的表1所示的。于是,在考虑相似性时,可以继续沿用着11个分类。同时,从中文的特点考虑,从这11个分类中选取8个分类,这8个分类包括绝大多数可能出现的生词或者是低频率词。参考表5所示。\n[0127]\n[0128] 表5\n[0129] 在表5中,选择了8个类。需要说明的是,在进行类别相似程度判断的时候,8个类的标记是用于对应的组块(短语结构)中的中心词。如何从确定组块结构中的中心词是已知的技术,比如,可以参考启发式Heuristic法则(Heuristic Rule),对于名词短语来说,最后一个词就是中心词。比如,“计算机”这个名词短语,其中心词就是“机”。\n[0130] 在确定了分类c之后,就需要把一个词w归到上述的类c中。根据一实施例,利用tf(术语频率term-frequency)向量来计算一个词w与一个类c的相似程度。\n[0131] tf向量可以通过下述的方式构建:\n[0132] 对于一个词w的tf向量tf(w):\n[0133] 在一个给定的训练数据中(比如一段中文文字),统计所有出现过的中文词;\n[0134] 设定一个窗口,窗口的宽度可以任意设定,词w被置于窗口的中间,在上述的训练数据中,所有出现词w的地方,都是用上述的窗口获取w周围的词,比如,窗口的大小设定为\n5,则每次都将获取词w以及w左右各2个词;\n[0135] 建立一数组,横坐标是所有出现过的中文词,纵坐标根据设定的窗口大小而定,在对应的位置上则是一特定词在词w附近位置出现的次数。\n[0136] 比如,除了词w之外,训练数据中总共出现了w0-wn个中文词,窗口的大小选择为5,则所构建的数组为:横坐标w0-wn,纵坐标(-2,-1,1,2),在(w0,-1)的位置上出现的数字是7,说明词w0在词w左侧第一个位置出现的次数由7次。\n[0137] 之后,根据上述的数组构建词w的tf向量tf(w)。\n[0138] 对每一个词w重复上述的过程,就能得到所有词w的tf向量tf(w)。\n[0139] 对于一个类c的tf向量tf(c):\n[0140] 在计算一个类c的tf向量tf(c)的时候,基本的算法与词w的算法类似,区别在于,在训练数据中进行搜索时,不再针对某一个特定的词w,而是将所有符合该分类c的词都进行计算。比如,对于前面出现过的例子“建设厅”中的“厅”、“办事处”中的“处”、“计算机”中的“机”,在计算词w的tf向量时,这些词是被分别计算,但是在计算类c的tf向量时,这些词都属于名词短语NP的中心词np,因此会被统一的进行统计。\n[0141] 因此,在计算类c的tf向量tf(c)时,使用一虚拟词pwc替换属于预定类别c的所有词,并基于该虚拟词pwc构建该预定类别c基于术语频率的特征向量tf(c)。\n[0142] 在得到了关于一个词w的tf向量tf(w)和关于一个类c的tf向量tf(c)后,就可以计算每一个词w的tf向量tf(w)和一个类c的tf向量tf(c)之间的相似度。相似度使用余弦度量(cosine measure)表示,在一个实施例中,用如下的公式计算:\n[0143]\n[0144] 其中,sim(w,c)表示词w与预定类别c之间的相似程度。\n[0145] 在自然语言中,一个词可以具有多个词性,因此,一个词w的tf向量tf(w)可能与多个类c的tf向量tf(c)相似。在一个实施例中,为每一个词w选曲3个最接近的类c,选择的方法就是根据sim(w,c)降序排列。在选出3个类之后,就将这三个类的类名标记(category label)添加到该词的标记中。\n[0146] 之后,还需要考虑词w与其他词w’之间的相似性。这一点的计算方法与上面所述的方法类似,只是将类c的tf向量tf(c)换成词w’的tf向量tf(w’)。计算得到的结果是sim(w,w′),表示词w与词w’之间的相似性。根据应用的不同,可以设定选择最相似的词w’的数量,这里不进行具体的限定。类似的,选择完成之后也要进行相应的标记,称之为类似词标记。\n[0147] 还需要进行的是一词w的周围词与其他词w”的相似程度。同样的,计算方法和上面的类似,可以首先设定一窗口,以确定需要考虑的w的周围词的范围,之后,对于窗口内的每一个词,利用上面描述的方法,寻找与其类似的词w”。类似的,选择完成之后也要进行相应的标记,称之为类似周围词标记,在一个实施例中,也可以将类似词标记和类似周围词标记合并在一起。\n[0148] 通过上面的3个方面的基于概率分布的相似性,可以从统计上得到关于一个词w,以及w的周围词与那些词最为相似,通过这样的信息,能够有效地提高组块分析的准确率。\n[0149] 示例的组块分析流程\n[0150] 参考图2a,图2a示出了根据本发明的一实施例的中文组块分析的方法200a的流程图,包括:\n[0151] 202a.定义组块类别,参考上面所述的中文组块的定义部分,可以定义11个类别的组块。\n[0152] 204a.使用条件随机场CRF作为标记模型,参考上面基于条件随机场的标记模型部分,基本的过程如下:\n[0153] 对于一给定的中文语句输入序列x=(x1,x2,…,xn)以及一可能的标记串y=(y1,y2,…,yn),序列x和y的条件随机场由一信息特征向量f和一对应的权重向量λ确定;\n[0154] 其中,每一个信息特征作为一状态特征s(y,x,i)或者一边缘特征t(yi-1,yi,x,i),其中yi-1和yi是标记串中的标记,x是输入的中文语句序列,i是输入位置;由条件随机场CRF定义的标记串y和输入的中文语句序列x之间的条件分布为:\n[0155]\n[0156]\n[0157]\n[0158] 其中,f表示状态特征s或者边缘特征t;F(Y,X)是条件随机场CRF的全局特征向量,Z(x)是标准化向量;\n[0159] 于是,对于输入的中文语句序列x来说,具有最大条件概率的标记序列y为:\n[0160]\n[0161] 其中,该标记模型的包括了如下的信息特征来对输入的语句序列进行标记:\n[0162] 基本信息特征,基本信息特征是选自下列的其中之一,包括基于词的特征、基于部分语境POS的特征、以及基于词与部分语境POS的组合的特征。有关基本信息特征的详细说明可参考上面的基本信息特征部分。此处需要说明的是,基本信息特征是选择使用,即,在一个具体的实现方式中,只选用其中的一个基本信息特征。\n[0163] 附加信息特征,附加信息特征是选自下列的其中之一或者它们的组合:基于词的长度的特征、基于词的词缀的特征、基于概率分布的相似性的特征。其中,基于概率分布的相似性的特征包括3个方面,一词w与一组预定类别c之间的相似程度、一词w与一组预定词的相似程度、一词w的周围词与一组预定词的相似程度。对于相似程度的计算,在一实施例中利用一术语频率(term-frequency)tf向量,通过获得对应于词w的tf向量tf(w)和对应于类的tf向量tf(c),获得向量之间的相似度,从而计算词与词之间,以及词与类之间的相似性。同样的,有关基本信息特征的详细说明可参考上面的附加信息特征部分。此处需要说明的是,附加信息特征是可以组合使用,即,在一个具体的实现方式中,既可以只选用其中的一个基本信息特征、也可以选择其中的任意两个的组合、或者选择全部的三个附加信息特征。\n[0164] 206a.使用训练数据对上述的标记模型进行训练。\n[0165] 208a.使用经过训练的标记模型对输入的中文语句进行组块分析。\n[0166] 参考图2b,其是图2a所示的实施例200a的一细化变形200b,在其中,不同于步骤\n204a提供的选择性的机制,步骤204b中直接选用基于词的特征作为基本信息特征,选用基于词的长度的特征作为附加信息特征。其余步骤与实施例200a中所示的一样。\n[0167] 参考图2c,其是图2a的一细化变形200c,步骤204c中直接选用基于词的特征作为基本信息特征,并选用基于词的长度的特征和基于词的词缀的特征的组合作为附加信息特征。其余步骤与实施例200a中所示的一样。\n[0168] 参考图2d,这是图2a的又一个细化变形200d,步骤204d中还是选用基于词的特征作为基本信息特征,而附加信息特征则是选择基于词的长度的特征、基于词的词缀的特征以及基于概率分布的相似性的特征三者的组合。其余步骤与实施例200a中所示的一样。\n[0169] 参考图2e,这是图2a的另一个细化变形200e,其中步骤204e选用基于词与部分语境POS的组合的特征作为基本信息特征,而对于附加信息特征,选择基于词的长度的特征、基于词的词缀的特征以及基于概率分布的相似性的特征三者的组合。其余步骤与200a一致。\n[0170] 上述的实施例200a以及其细化的变形200b-200e,说明本发明所提供的组块分析方法可以根据应用的需要对信息特征的设定进行选择,这里所揭示的所有信息特征、以及其所有的可能组合方式都是在本发明所保护的范围之内。\n[0171] 示例的组块分析系统\n[0172] 参考图3a,图3a示出了根据本发明的一实施例的中文组块系统300a的结构图,该系统包括:\n[0173] 组块类别定义装置302a,定义组块类别,参考上面所述的中文组块的定义部分,可以定义11个类别的组块。\n[0174] CRF标记模型304a,使用条件随机场CRF作为标记模型;参考上面基于条件随机场的标记模型部分,基本的过程如下:\n[0175] 对于一给定的中文语句输入序列x=(x1,x2,…,xn)以及一可能的标记串y=(y1,y2,…,yn),序列x和y的条件随机场由一信息特征向量f和一对应的权重向量λ确定;\n[0176] 其中,每一个信息特征作为一状态特征s(y,x,i)或者一边缘特征t(yi-1,yi,x,i),其中yi-1和yi是标记串中的标记,x是输入的中文语句序列,i是输入位置;由条件随机场CRF定义的标记串y和输入的中文语句序列x之间的条件分布为:\n[0177]\n[0178]\n[0179]\n[0180] 其中,f表示状态特征s或者边缘特征t;F(Y,X)是条件随机场CRF的全局特征向量,Z(x)是标准化向量;\n[0181] 于是,对于输入的中文语句序列x来说,具有最大条件概率的标记序列y为:\n[0182]\n[0183] 其中,该标记模型的信息特征包括:\n[0184] 基本信息特征,基本信息特征是选自下列的其中之一,包括基于词的特征、基于部分语境POS的特征、以及基于词与部分语境POS的组合的特征。有关基本信息特征的详细说明可参考上面的基本信息特征部分。此处需要说明的是,基本信息特征是选择使用,即,在一个具体的实现方式中,只选用其中的一个基本信息特征。\n[0185] 附加信息特征,附加信息特征是选自下列的其中之一或者它们的组合:基于词的长度的特征、基于词的词缀的特征、基于概率分布的相似性的特征。其中,基于概率分布的相似性的特征包括3个方面,一词w与一组预定类别c之间的相似程度、一词w与一组预定词的相似程度、一词w的周围词与一组预定词的相似程度。对于相似程度的计算,在一实施例中利用一术语频率(term-frequency)tf向量,通过获得对应于词w的tf向量tf(w)和对应于类的tf向量tf(c),获得向量之间的相似度,从而计算词与词之间,以及词与类之间的相似性。同样的,有关基本信息特征的详细说明可参考上面的附加信息特征部分。此处需要说明的是,附加信息特征是可以组合使用,即,在一个具体的实现方式中,既可以只选用其中的一个基本信息特征、也可以选择其中的任意两个的组合、或者选择全部的三个附加信息特征。\n[0186] 参考图3a,图3a为了实现上述的可选择基本信息特征和附加信息特征的功能,提供了如下的结构:\n[0187] 基本信息特征提供装置340a,其包含3个子模块,分别是词特征提供装置341a、部分语境POS特征提供装置342a、以及词与部分语境POS的组合特征提供装置343a。基本信息特征提供装置340a还提供一选择机制344a,用于在上述的词特征提供装置341a、部分语境POS特征提供装置342a、以及词与部分语境POS的组合特征提供装置343a三者中选择其一。\n[0188] 类似的,一附加信息提供装置350a也包括了3个子模块:词长度确定装置351a、词缀确定装置352a、基于概率分布的相似性确定装置353a。与基本信息特征提供装置340a不同的是,由于附加信息是可以组合使用的,因此在附加信息提供装置350a中为词长度确定装置351a、词缀确定装置352a、基于概率分布的相似性确定装置353a中的每一个提供了一开关机制354a,通过分别独立控制词长度确定装置351a、词缀确定装置352a、基于概率分布的相似性确定装置353a,实现这些附加特征的独立使用或者是组合使用。\n[0189] 此处需要特别说明一下基于概率分布的相似性确定装置,结合上面基于概率分布的相似性部分的详细说明,对于本领域的技术人员来说可以理解如何去实现基于概率分布的相似性确定装置。如果从功能上描述,基于概率分布的相似性确定装置应当包括一个tf向量产生器以及一向量相似度计算装置。\n[0190] 继续参考整个的系统300a,在构建标记模型后,使用训练数据对上述的标记模型进行训练;并使用经过训练的标记模型对输入的中文语句进行组块分析。\n[0191] 参考图3b,其是图3a所示的实施例300a的一细化变形300b,在其中,CRF标记模型\n304b不再提供的选择性的机制,其中的基本信息特征提供装置340b就是词特征提供装置,不含有其他的子模块以及选择机制。类似的,附加信息提供装置350b也直接是词长度确定装置,其他的子模块和开关机制被取消。其余部分与实施例300a中所示的一样。\n[0192] 参考图3c,其是图3a的一细化变形300c,CRF标记模型304c中的基本信息特征提供装置340c是词特征提供装置,不含有其他的子模块以及选择机制。附加信息提供装置350c是词缀确定装置,其他的子模块和开关机制被取消。其余部分与实施例300a中所示的一样。\n[0193] 参考图3d,其是图3a的又一个细化变形300d,CRF标记模型304d中的基本信息特征提供装置340d是词特征提供装置,不含有其他的子模块以及选择机制。附加信息提供装置\n350d是基于概率分布的相似性确定装置,其他的子模块和开关机制被取消。其余部分与实施例300a中所示的一样。\n[0194] 参考图3e,其是图3a的又一个细化变形300e,CRF标记模型304e中的基本信息特征提供装置340e是词特征提供装置,不含有其他的子模块以及选择机制。附加信息提供装置\n350e包括了3个子模块:词长度确定装置351e、词缀确定装置352e、基于概率分布的相似性确定装置353e。此处附加信息提供了组合使用的功能,在附加信息提供装置350e中为词长度确定装置351e、词缀确定装置352e、基于概率分布的相似性确定装置353e中的每一个提供了一开关机制354e,通过分别独立控制词长度确定装置351e、词缀确定装置352e、基于概率分布的相似性确定装置353e,实现这些附加特征的独立使用或者是组合使用。其余部分与实施例300a中所示的一样。\n[0195] 参考图3f,其是图3a的另一个细化变形300f,CRF标记模型304f中的基本信息特征提供装置340f是词与部分语境POS的组合特征提供装置,不含有其他的子模块以及选择机制。附加信息提供装置350e包括了2个子模块:词长度确定装置351f、基于概率分布的相似性确定装置353f。此处附加信息提供了2个附加信息的组合使用功能,并且为词长度确定装置351f、基于概率分布的相似性确定装置353f都提供一开关机制354f,通过分别独立控制词长度确定装置351f、基于概率分布的相似性确定装置353f,实现独立使用或者是组合使用。其余部分与实施例300a中所示的一样。\n[0196] 上述的实施例300a以及其细化的变形300b-200f,说明本发明所提供的组块分析系统可以根据应用的需要对信息特征的设定进行选择,这里所揭示的所有信息特征的产生装置、以及其所有的可能组合方式都是在本发明所保护的范围之内。\n[0197] 这里说描述的组块分析系统,其实现方式可以为软件、硬件或者它们的组合。此外,如果组块分析提供是由软件所实现,那么本发明应当覆盖软件本身、记录有该软件的记录介质、执行该软件的通用计算机、传送该软件相关指令的载体等。如果该组块分析系统由硬件实现,则本发明应当覆盖专用的芯片、执行特定指令的通用芯片、存储有特定指令的存储器以及配套的执行这些指令的处理器等。总之,本发明的保护范围不应当被限制在所描述的示例实施例中,而应当以权利要求所覆盖的全部范围为准。\n[0198] 有益效果\n[0199] 一组实验的数据将说明应用本发明所提供的组块分析技术的效果。对于一样本,采用各种信息标记,得到的组块正确率的情况如表6所示。\n[0200]\n[0201] 表6\n[0202] 通过表6所示的结果可见,增加附加信息特征之后,能提高组块分析的正确率,并且,组合使用附加信息特征的效果更加显著。\n[0203] 同时,在另一个试验结果中,证明当时用此处提供的附加信息特征时,在配合使用基本信息特征中的POS特征,其结果不如表6所示的基于词的特征。因此,使用基于词的特征与附加特征是较佳的方式。\n[0204] 综上所述,该中文组块分析的技术能在训练数据量较小时有效提高组块分析的准确度,使得中文组块分析的应用能力得到很大的提高。\n[0205] 上面结合本发明的一实施例对本发明进行了详细的描述,但是需要说明的是,这并不是对于本发明的范围作出任何的限制,对于上面所说的实施例的所作出的各种不需要创造性劳动的变化,修改,都应被视为是在本发明的范围之内,对于本发明而言,应当扩展到符合权利要求所限定的发明原理的最宽泛的范围。
法律信息
- 2017-03-01
- 2015-08-19
专利申请权的转移
登记生效日: 2015.07.28
申请人由微软公司变更为微软技术许可有限责任公司
地址由美国华盛顿州变更为美国华盛顿州
- 2010-10-27
实质审查的生效
IPC(主分类): G06F 17/27
专利申请号: 200710148214.3
申请日: 2007.08.27
- 2009-03-04
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |