著录项信息
专利名称 | 一种确定搭配词与中心词搭配程度的方法和系统 |
申请号 | CN201010158112.1 | 申请日期 | 2010-04-22 |
法律状态 | 暂无 | 申报国家 | 中国 |
公开/公告日 | 2011-11-09 | 公开/公告号 | CN102236637A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/27 | IPC分类号 | G;0;6;F;1;7;/;2;7查看分类表>
|
申请人 | 北京金山软件有限公司;北京金山数字娱乐科技有限公司 | 申请人地址 | 北京市海淀区小营西路33号金山软件大厦
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 北京金山办公软件股份有限公司 | 当前权利人 | 北京金山办公软件股份有限公司 |
发明人 | 张宇峰;陈学文 |
代理机构 | 北京集佳知识产权代理有限公司 | 代理人 | 逯长明;王宝筠 |
摘要
本发明实施例公开了一种确定搭配词与中心词搭配程度的方法和系统。本发明实施例所提供的方案在对中心词的搭配词在语料中的出现次数以及与中心词搭配出现的次数进行统计基础上,再进行二次计算,例如通过用搭配词与中心词搭配出现的次数除以搭配词在语料中的出现次数,有效地将与中心词搭配度较低的搭配词从搭配词集合中剔除,更加凸显了与中心词搭配度高的搭配词,根据计算得到的搭配度对搭配词进行重新排序,搭配度高的搭配词即为与中心词结合最紧密的搭配词。
1.一种确定搭配词与中心词搭配程度的方法,其特征在于,包括:
获取语料,对语料进行分词处理,确定中心词,确定语料中中心词的搭配词,组成搭配词集合;
统计搭配词集合中的各个搭配词在语料中的出现次数;
统计搭配词集合中的各个搭配词与中心词在语料中搭配出现的次数;
利用搭配词与中心词在语料中搭配出现的次数和搭配词在语料中的出现次数来计算各个搭配词与中心词的搭配度;
结合所述搭配度确定各个搭配词与中心词的搭配程度;
根据搭配程度向用户提供中心词的搭配词;
所述根据搭配程度向用户提供中心词的搭配词具体包括:根据计算得到的搭配度从大到小对搭配词进行重新排序,搭配度位于前列的搭配词作为与中心词结合最紧密的搭配词提供给用户;
在机器翻译领域,所述中心词及与中心词结合最紧密的搭配词,为机器翻译提供准确的翻译结果,或者,所述中心词及与中心词结合最紧密的搭配词用于处理多义词、特定词分析、同义词反义词分析和中心词分析;
在知识发现领域,所述与中心词结合最紧密的搭配词用于对所述中心词的属性进行分析。
2.根据权利要求1所述的方法,其特征在于,利用搭配词与中心词在语料中搭配出现的次数与搭配词在语料中出现的总次数来计算各个搭配词与中心词的搭配度包括:
利用搭配词与中心词在语料中搭配出现的次数除以搭配词在语料中的出现次数计算搭配词与中心词在语料中搭配出现的次数占搭配词在语料中的出现次数的百分比,将所述百分比作为搭配词与中心词的搭配度。
3.根据权利要求1所述的方法,其特征在于,在获取语料,并确定中心词之后,计算各个搭配词与中心词的搭配度之前,还包括:
统计语料中的总词数;
计算各个搭配词与中心词的搭配度具体为:
利用搭配词与中心词在语料中搭配出现的次数、搭配词在语料中的出现次数以及语料中的总词数来计算各个搭配词与中心词的搭配度。
4.根据权利要求3所述的方法,其特征在于,利用搭配词与中心词在语料中搭配出现的次数、搭配词在语料中出现的总次数以及语料中的总词数来计算各个搭配词与中心词的搭配度具体为:
按照如下公式计算各个搭配词与中心词的搭配度:
其中,f(i)表示某中心词与搭配词i的搭配度;trem_i表示搭配词i与中心词在语料中搭配出现的次数;document_i表示搭配词i在整个语料当中所出现的次数;allcnt表示语料中的总词数。
5.一种确定搭配词与中心词搭配程度的系统,其特征在于,包括:
预处理单元,用于获取语料,确定中心词,并确定与中心词对应的搭配词集合;
第一统计单元,用于统计搭配词集合中的各个搭配词在语料中的出现次数;
第二统计单元,用于统计搭配词集合中的各个搭配词与中心词在语料中搭配出现的次数;
计算单元,用于利用搭配词与中心词在语料中搭配出现的次数与搭配词在语料中出现的总次数来计算各个搭配词与中心词的搭配度;
第二确定单元,结合所述搭配度确定各个搭配词与中心词的搭配程度;
协助单元,用于根据搭配程度向用户提供中心词的搭配词;
所述根据搭配程度向用户提供中心词的搭配词具体包括:根据计算得到的搭配度从大到小对搭配词进行重新排序,搭配度位于前列的搭配词作为与中心词结合最紧密的搭配词提供给用户;
在机器翻译领域,所述中心词及与中心词结合最紧密的搭配词,为机器翻译提供准确的翻译结果,或者,所述中心词及与中心词结合最紧密的搭配词用于处理多义词、特定词分析、同义词反义词分析和中心词分析;
在知识发现领域,所述与中心词结合最紧密的搭配词用于对所述中心词的属性进行分析。
6.根据权利要求5所述的系统,其特征在于,所述计算单元包括:
第一获取子单元,用于从所述第一统计单元获取搭配词集合中的各个搭配词在语料中的出现次数;
第二获取子单元,用于从所述第二统计单元获取搭配词集合中的各个搭配词与中心词在语料中搭配出现的次数;
第一计算子单元,用于利用搭配词与中心词在语料中搭配出现的次数除以搭配词在语料中出现的次数计算各个搭配词与中心词的搭配度。
7.根据权利要求5所述的系统,其特征在于,还包括:
第三统计单元,用于统计语料中的总词数;
所述计算单元还包括:
第三获取子单元,用于从所述第三统计单元获取语料中的总词数;
第二计算子单元,用于利用搭配词与中心词在语料中搭配出现的次数、搭配词在语料中出现的总次数以及语料中的总词数来计算各个搭配词与中心词的搭配度。
8.根据权利要求7所述的系统,其特征在于,所述第二计算子单元按照如下公式计算各个搭配词与中心词的搭配度:
其中,f(i)表示某中心词与搭配词i的搭配度;trem_i表示搭配词i与中心词在语料中搭配出现的次数;document_i表示搭配词i在整个语料当中所出现的次数;allcnt表示语料中的总词数。
一种确定搭配词与中心词搭配程度的方法和系统\n技术领域\n[0001] 本发明涉及网络技术领域,尤其涉及一种确定搭配词与中心词搭配程度的方法和系统。\n背景技术\n[0002] 随着网络技术的不断普及,网络已经融入了人们日常工作和生活的各个方面。网络的普及使得信息量不断地膨胀。在信息获取过程中,对某个词的理解很大程度上受到与这个词经常搭配的词的影响。本申请实施例中,为方便起见,将某个词叫做中心词,与中心词搭配出现的词叫搭配词。\n[0003] 发明人通过对现有技术的研究发现,随着信息量的增加,面对庞杂纷繁的信息,目前的技术无法从众多与中心词搭配出现的词中准确地确定与中心词搭配最紧密的搭配词。\n发明内容\n[0004] 有鉴于此,本发明实施例的目的是提供一种确定搭配词与中心词搭配程度的方法和系统,实现从众多与中心词搭配出现的词中准确地确定与中心词搭配最紧密的搭配词。\n[0005] 为实现上述目的,本发明实施例提供了如下技术方案:\n[0006] 一种确定搭配词与中心词搭配程度的方法,包括:\n[0007] 获取语料,确定中心词,并确定与中心词对应的搭配词集合;\n[0008] 统计搭配词集合中的各个搭配词在语料中的出现次数;\n[0009] 统计搭配词集合中的各个搭配词与中心词在语料中搭配出现的次数;\n[0010] 利用搭配词与中心词在语料中搭配出现的次数与搭配词在语料中的出现次数来计算各个搭配词与中心词的搭配度;\n[0011] 结合所述搭配度确定各个搭配词与中心词的搭配程度。\n[0012] 利用搭配词与中心词在语料中搭配出现的次数与搭配词在语料中出现的总次数来计算各个搭配词与中心词的搭配度包括:\n[0013] 利用搭配词与中心词在语料中搭配出现的次数除以搭配词在语料中的出现次数计算各个搭配词与中心词的搭配度。\n[0014] 在获取语料,并确定中心词之后,计算各个搭配词与中心词的搭配度之前,还包括:\n[0015] 统计语料中的总词数;\n[0016] 计算各个搭配词与中心词的搭配度具体为:\n[0017] 利用搭配词与中心词在语料中搭配出现的次数、搭配词在语料中的出现次数以及语料中的总词数来计算各个搭配词与中心词的搭配度。\n[0018] 利用搭配词与中心词在语料中搭配出现的次数、搭配词在语料中出现的总次数以及语料中的总词数来计算各个搭配词与中心词的搭配度具体为:\n[0019] 按照如下公式计算各个搭配词与中心词的搭配度:\n[0020] \n[0021] 其中,f(i)表示某中心词与搭配词i的搭配度;trem_i表示搭配词i与中心词在语料中搭配出现的次数;document_i表示搭配词i在整个语料当中所出现的次数;allcnt表示语料中的总词数。\n[0022] 上述方法还包括:\n[0023] 根据搭配程度向用户提供中心词的搭配词。\n[0024] 一种确定搭配词与中心词搭配程度的系统,包括:\n[0025] 预处理单元,用于获取语料,确定中心词,并确定与中心词对应的搭配词集合;\n[0026] 第一统计单元,用于统计搭配词集合中的各个搭配词在语料中的出现次数;\n[0027] 第二统计单元,用于统计搭配词集合中的各个搭配词与中心词在语料中搭配出现的次数;\n[0028] 计算单元,用于利用搭配词与中心词在语料中搭配出现的次数与搭配词在语料中出现的总次数来计算各个搭配词与中心词的搭配度;\n[0029] 第二确定单元,结合所述搭配度确定各个搭配词与中心词的搭配程度。\n[0030] 所述计算单元包括:\n[0031] 第一获取子单元,用于从所述第一统计单元获取搭配词集合中的各个搭配词在语料中的出现次数;\n[0032] 第二获取子单元,用于从所述第二统计单元获取搭配词集合中的各个搭配词与中心词在语料中搭配出现的次数;\n[0033] 第一计算子单元,用于利用搭配词与中心词在语料中搭配出现的次数除以搭配词在语料中的出现次数计算各个搭配词与中心词的搭配度。\n[0034] 上述系统还包括:\n[0035] 第三统计单元,用于统计语料中的总词数;\n[0036] 所述计算单元还包括:\n[0037] 第三获取子单元,用于从所述第三统计单元获取语料中的总词数;\n[0038] 第二计算子单元,用于利用搭配词与中心词在语料中搭配出现的次数、搭配词在语料中出现的总次数以及语料中的总词数来计算各个搭配词与中心词的搭配度。\n[0039] 所述第二计算子单元按照如下公式计算各个搭配词与中心词的搭配度:\n[0040] \n[0041] 其中,f(i)表示某中心词与搭配词i的搭配度;trem_i表示搭配词i与中心词在语料中搭配出现的次数;document_i表示搭配词i在整个语料当中所出现的次数;allcnt表示语料中的总词数。\n[0042] 上述系统还包括:\n[0043] 协助单元,用于根据搭配程度向用户提供中心词的搭配词。\n[0044] 可见,本发明实施例所提供的方案在对中心词的搭配词在语料中的出现次数以及与中心词搭配出现的次数进行统计基础上,再进行二次计算,例如通过用搭配词与中心词搭配出现的次数除以搭配词在语料中的出现次数,有效地将与中心词搭配度较低的搭配词从搭配词集合中剔除,更加凸显了与中心词搭配度高的搭配词,根据计算得到的搭配度从大到小对搭配词进行重新排序,搭配度位于前列的搭配词即为与中心词结合最紧密的搭配词。\n附图说明\n[0045] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。\n[0046] 图1为本发明一实施例所提供的方法流程图;\n[0047] 图2为本发明另一实施例所提供的方法的流程图;\n[0048] 图3为本发明一实施例所提供的系统的结构示意图;\n[0049] 图4为本发明一实施例所提供的系统中一单元的结构示意图;\n[0050] 图5为本发明另一实施例所提供的系统的结构示意图;\n[0051] 图6为本发明另一实施例所提供的系统中一单元的结构示意图。\n具体实施方式\n[0052] 为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。\n[0053] 参见图1,本发明实施例提供的一种确定搭配词与中心词搭配程度的方法,包括:\n[0054] S101、获取语料,对语料进行分词处理,确定中心词,并确定与中心词对应的搭配词集合;\n[0055] 语料是本发明实施例所提供的方案的基础,语料可以由用户根据自己的需要,结合特定的领域收集形成。目前网络上也有许多公开的语料库可以供人们使用。语料的语言可以是中文、英文或者其他语言,本申请对此不做限定,为描述方便,本发明实施例以中文语料为例进行说明。\n[0056] 本发明所研究的对象为词,本发明实施例以中文为例进行描述。在获得语料后,可以先对语料进行分词处理,将语料变成大量的词的集合。当然,为了后续使用的方便,一些实施例中,还可以对语料进行一些预处理,例如去掉语料中的拟声词等等。\n[0057] 分词之后,还需要确定要研究的中心词。本发明实施例所要解决的问题即结合语料确定与中心词搭配最紧密的搭配词,进而可以结合搭配词进行各种应用。中心词的确定可以根据实际需要进行,需要确定哪个词的搭配词,就可以将哪个词作为中心词。\n[0058] 一般情况下,语料的容量比较丰富,与中心词搭配的搭配词也会比较多,本发明实施例中,可以将中心词的所有搭配词都放入搭配词集合中。\n[0059] S102、统计搭配词集合中的各个搭配词在语料中的出现次数;\n[0060] S103、统计搭配词集合中的各个搭配词与中心词在语料中搭配出现的次数;\n[0061] 本发明实施例中,搭配词是与中心词相对的概念。实际上每一个搭配词都是一个独立的词,搭配词在语料中除了可以与中心词搭配出现,还可能独立出现,或者与其他的词搭配出现。本发明实施例中,对语料中总词数、搭配词出现的数量以及搭配词与中心词搭配出现的次数分别进行统计。\n[0062] S104、利用搭配词与中心词在语料中搭配出现的次数和搭配词在语料中的出现次数来计算各个搭配词与中心词的搭配度;\n[0063] 本发明实施例中,可以用搭配词与中心词在语料中搭配出现的次数除以搭配词在语料中的出现总次数计算各个搭配词与中心词的搭配度。\n[0064] S105、结合所述搭配度确定各个搭配词与中心词的搭配程度。\n[0065] 实际应用中,可以结合搭配词与中心词的搭配度对搭配词进行排序,搭配度高的搭配词与中心词的搭配程度高于搭配度低的搭配词与中心词的搭配程度。\n[0066] 现有技术在确定搭配词与中心词搭配程度时,一般仅仅根据搭配词与中心词搭配出现的次数确定,因为参考的因素过于简单,造成很多情况下所确定的中心词与搭配词的搭配程度与实际不符,非常不准确。\n[0067] 本发明实施例中,利用搭配词与中心词在语料中搭配出现的次数和搭配词在语料中的出现次数来计算各个搭配词与中心词的搭配度,即在确定搭配词与中心词搭配程度时,除了考虑搭配词与中心词搭配出现的次数之外,还考虑了搭配词自身在语料中的出现次数,通过本发明实施例所提供的方法确定的搭配词与中心词的搭配程度能够更加真实地反映出与中心词搭配出现对搭配词本身的影响。例如,如果一个词A在语料中出现100次,与中心词M搭配出现30次;另一个词B在语料中出现50次,与中心词M搭配出现25次,那么如果按照现有技术的方法,词B与中心词M的搭配程度高于词A与中心词M的搭配程度。\n但是实际上,因为词B总共出现了50次,有25次都与中心词M搭配出现,搭配出现次数占词B在语料中的出现次数的50%;,即词B与中心词M的搭配度为50%;而词A与中心词M搭配出现次数占词B在语料中的出现次数的30%,即词A与中心词M的搭配度为30%,根据本发明实施例所提供的方法,词B与中心词M的搭配度高于词A与中心词M的搭配度,词B与中心词M的搭配程度高于词A与中心词M的搭配程度。\n[0068] 实际应用中,还可以结合更多的信息对搭配词与中心词的搭配度进行优化,例如,在本发明另一实施例中,可以在步骤S101之后,在步骤S105之前增加如下步骤:\n[0069] 统计语料中的总词数。\n[0070] 一般来说,语料一旦确定,语料中的总词数就确定下来了,对于整个语料来说,语料中的总词数相当于一个常数。\n[0071] 在获取语料中的总词数后,计算搭配词与中心词的搭配度时可以进一步结合语料的总词数进行。例如,利用一些函数对搭配词与中心词搭配出现的次数以及搭配词在语料中的出现次数进行平滑处理。\n[0072] 公式1是本发明一实施例所提供的一种计算搭配词与中心词的搭配度的计算公式。\n[0073] 公式1\n[0074] 其中,f(i)表示某中心词与搭配词i的搭配度,trem_i表示搭配词i与中心词在语料中搭配出现的次数。本发明实施例中,我们把一个中心词对应的所有的搭配词所组成的搭配词集合用trem表示。举例说明:例如中心词“黑客”的搭配词包括“的”、“工具”等,则“的”与“黑客”在整个语料中搭配出现的次数为trem_i。document_i表示搭配词i在整个语料当中的出现次数,本发明实施例中,将整个语料记为document。例如:“工具”的document_i表示“工具”这个词在整个语料中的出现次数;allcnt表示整个语料当中所有词的数量,本发明实施例中,词是可重复的。\n[0075] 公式1是在term_i/document_i,即搭配词i与中心词搭配出现的次数除以这个搭配词在整个语料中的出现次数这个公式的基础上扩展出来的。term_i的值越高则中心词与搭配词在语料中搭配出现的次数越多;document_i越高则表示这个搭配词在整个语料中的出现次数越多。如果搭配词在整个语料中的出现次数很多,但是term_i/document_i的值很小的话,说明搭配词与中心词搭配出现的情况与搭配词出现的情况相比很小,则搭配词相对这个中心词的影响度小,所计算出来的搭配词与中心词的搭配度低。\n[0076] 一般情况下,任何一个词在整个语料中都是成稀疏状态的,考虑到整个语料的稀疏性,可以平滑term_i和document_i的值对搭配度的影响。一实施例中,可以利用数学公式对trem_i和document_i进行平滑处理。例如,结合函数曲线的特性,通过 和log(allcnt÷document_i)对term_i和document_i进行优化处理。其中,对为了消除语料长度不同对f(i)的影响,使用allcnt的值对公式进行校正。\n[0077] 本发明实施例中,对搭配词在语料中的出现次数document_i取对数是因为document_i的值一般都比较大,语料成稀疏状,通过取对数平滑document_i对评分的影响,缩小了不同的数量级之间的差距。例如,如果某个中心词的一个搭配词A的document_i为100000,这个中心词的另一个搭配词B的document_i为1000000,这两者之间就差了相差十倍,通过取对数,这两者的差距在对数曲线上变成了1,可见通过取对数平滑了document_i曲线。本发明实施例所提供的方法中,term_i对搭配度的重要性高于\n1/2\ndocument_i的重要性,所以在对平滑trem_i值时采用term_i 计算。本发明实施例中使用allcnt除以document_i是为了把log(document_i)曲线转移到X轴上方,使得log(document_i)的值是一个大于零的取值。\n[0078] 通过上述分析可以知道,本发明实施例所提供的计算搭配度的计算公式并不是唯一的,本发明对搭配度计算公式的具体形式不做限定,只要能够实现上述目的即可。\n[0079] 参见图2,下面结合一个具体实例对本发明实施例所提供的方法进行详细描述。\n[0080] S201、获取180万个中文句子作为语料,对语料进行分词处理,确定当前的中心词为“黑客”。\n[0081] 本发明实施例中以“黑客”作为中心词的例子来描述本发明实施例所提供的方法。\n实际应用中,对中心词的具体内容和数目都不做限定,可以根据实际需要确定。无论是一个中心词还是多个中心词,确定搭配词与中心词搭配程度的方法都相同,本实施例以一个中心词为例进行介绍。\n[0082] S202、统计语料中的总词数M。\n[0083] S203、确定语料中中心词的搭配词,组成搭配词集合。\n[0084] S204、统计语料中搭配词集合中各个搭配词在语料中的出现次数d_i以及搭配词与中心词“黑客”搭配出现的次数ti。\n[0085] S205、根据公式1计算搭配词集合中各个搭配词的与中心词“黑客”的搭配度f(i)。\n[0086] 公式2\n[0087] 例如,本发明实施例中,“黑客”这个中心词对应的搭配词集合中的搭配词包括:\n的、攻击、工具、软件、侵入、入侵、资料、试图、窃取、文化共10个,目前这10个搭配词的排列顺序即按照搭配词与中心词“黑客”搭配出现的次数从多到少排列的。为了描述方便,为这\n10个搭配词统一编号为1~10。例如,“的”这个搭配词的编号为1,“入侵”这个搭配词的编号为5,依次类推。对应的,t5表示“入侵”这个搭配词与中心词“黑客”搭配出现的次数,d_5表示“入侵”这个搭配词在语料中的出现次数。f(5)表示“入侵”这个搭配词与中心词“黑客”的搭配度。根据公式2分别计算出上述10各搭配词与中心词“黑客”的搭配度。\n[0088] S206、按照这10个搭配词的搭配度对搭配词进行排序,选取位于排在前5位的搭配词,提供给用户。\n[0089] 通过公式2的计算,并按照计算出来的搭配度从大到小对上述10各搭配词重新排序为:攻击、窃取、侵入、工具、入侵、试图、资料、软件、文化、的。可以将搭配度排在前5位的搭配词如攻击、窃取、侵入、工具、入侵提供给用户,并提示用户这些词是与“黑客”搭配度较高的词,可以协助用户通过这些搭配度较高的词提高对中心词相关信息掌握的准确性。\n[0090] 本发明实施例所提供的方法在对中心词的搭配词在语料中的出现次数以及与中心词搭配出现的次数进行统计基础上,再进行二次计算,例如通过用搭配词与中心词搭配出现的次数除以搭配词在语料中的出现次数,有效地将与中心词搭配度较低的搭配词从搭配词集合中剔除,更加凸显了与中心词搭配度高的搭配词,根据计算得到的搭配度对搭配词进行重新排序,将与中心词搭配度高的搭配词提供给用户,提高了确定与中心词搭配最紧密的搭配词的准确性。\n[0091] 实际应用中,确定了中心词搭配度较高的搭配词,这些搭配词可以被广泛地应用。\n例如,在搜索建议方面,如果用户在搜索框中输入“黑客”,然后利用本发明提供的中心词的搭配词的确定方案,确定与“黑客”搭配度高的搭配词,如“黑客攻击”、“黑客窃取”、“黑客侵入”等等,可以通过下拉菜单等方式将这些与“黑客”搭配度高的搭配词展示给用户,方便用户进行进一步的搜索。\n[0092] 本发明实施例所提供的方法还能够应用在机器翻译领域,例如可以根据本发明实施例所提供的方法确定的中心词及其搭配词为机器翻译提供准确的翻译结果,还可以利用中心词和确定的搭配词处理多义词、特定词分析、同义词反义词分析,中心词分析等等。\n例如搭配词是对齐的双语语料,即搭配词时对应的中文和英文,则可以利用中心词及搭配词分析及统计搭配词的属性,确认搭配词的词义,例如一个待翻译的句子中含有“make”,“make”是一个多义词,直接翻译不能确定此时应该译成什么内容,此时就可以根据make的搭配词确定此时“make”应该如何翻译。例如,“make”后面是代词“it”,根据“make”的搭配词统计可以知道,当与代词结合时,make一般可以翻译为“使、让”,从而可以结合中心词的搭配词统计结果,提高翻译的准确性。\n[0093] 此外,利用本发明实施例所提供的方法确定的中心词以及搭配词还可以应用于知识发现领域,可以对中心词的属性进行分析,比如将中心词和搭配词都附上词性标注,统计搭配词则可以分析中心词的搭配词性,如V(动词)+V,V+N等,从而为研究词性之间的相互结合提供依据。\n[0094] 本发明一实施例还提供一种确定搭配词与中心词搭配程度的系统,参见图3,该系统包括:\n[0095] 预处理单元301,用于获取语料,对语料进行分词处理,确定中心词,并确定搭配词与中心词搭配程度集合;\n[0096] 第一统计单元302,用于统计搭配词集合中的各个搭配词在语料中的出现次数;\n[0097] 第二统计单元303,用于统计搭配词集合中的各个搭配词与中心词在语料中搭配出现的次数;\n[0098] 计算单元304,用于利用搭配词与中心词在语料中搭配出现的次数与搭配词在语料中出现的总次数来计算各个搭配词与中心词的搭配度;\n[0099] 确定单元305,结合所述搭配度确定各个搭配词与中心词的搭配程度。\n[0100] 具体地,参见图4,所述计算单元305包括:\n[0101] 第一获取子单元401,用于从所述第一统计单元获取搭配词集合中的各个搭配词在语料中的出现次数;\n[0102] 第二获取子单元402,用于从所述第二统计单元获取搭配词集合中的各个搭配词与中心词在语料中搭配出现的次数;\n[0103] 第一计算子单元403,用于利用搭配词与中心词在语料中搭配出现的次数与搭配词在语料中出现的总次数作商来计算各个搭配词与中心词的搭配度。\n[0104] 现有技术在确定搭配词与中心词搭配程度时,一般仅仅根据搭配词与中心词搭配出现的次数确定,因为参考的因素过于简单,造成很多情况下所确定的中心词与搭配词的搭配程度与实际不符,非常不准确,使用户结合搭配词获取到的中心词的信息也不准确。\n[0105] 本发明实施例中,利用搭配词与中心词在语料中搭配出现的次数与搭配词在语料中出现的总次数来计算各个搭配词与中心词的搭配度,即在确定搭配词与中心词搭配程度时,除了考虑搭配词与中心词搭配出现的次数之外,还考虑了搭配词自身在语料中的出现次数,通过本发明实施例所提供的方案确定的搭配词与中心词的搭配度能够更加真实地反映出与中心词搭配出现对搭配词本身的影响。\n[0106] 参见图5,为本发明另一实施例所提供的一种确定搭配词与中心词搭配程度的系统,该系统包括与图3所示的系统相同的预处理单元301、第一统计单元302、第二统计单元\n303以及确定单元305之外,还包括第三统计单元501以及计算单元502。\n[0107] 其中,第三统计单元501,用于统计语料中的总词数;\n[0108] 计算单元502,用于利用搭配词与中心词在语料中搭配出现的次数、搭配词在语料中出现的总次数以及语料中的总词数来计算各个搭配词与中心词的搭配度。\n[0109] 具体地,参见图6,图5中的计算单元502除了包含与图4所示的计算单元304相同的第一获取子单元401、第二获取子单元402之外,还包括:\n[0110] 第三获取子单元601,用于从所述第三统计单元获取语料中的总词数;\n[0111] 第二计算子单元602,用于利用搭配词与中心词在语料中搭配出现的次数、搭配词在语料中出现的总次数以及语料中的总词数来计算各个搭配词与中心词的搭配度。\n[0112] 具体地,所述第二计算子单元602可以按照如下公式计算各个搭配词与中心词的搭配度:\n[0113] \n[0114] 其中,f(i)表示某中心词与搭配词i的搭配度;trem_i表示搭配词i与中心词在语料中搭配出现的次数;document_i表示搭配词i在整个语料当中所出现的次数;allcnt表示语料中的总词数。\n[0115] 图4与图6分别对应两种计算单元的具体结构示意图,图4所示的计算单元主要利用搭配词与中心词在语料中搭配出现的次数与搭配词在语料中出现的总次数作商来计算各个搭配词与中心词的搭配度;图6所示的计算单元在搭配词与中心词在语料中搭配出现的次数与搭配词在语料中出现的总次数的基础上进一步集合了语料中的总词数来求中心词与搭配词的搭配度。\n[0116] 可选地,本发明实施例所提供的系统,图3或者图5所示的系统还可以包括协助单元。以图3所示的系统为例,该系统还包括协助单元306,用于根据搭配程度向用户提供中心词的搭配词。例如,按照各个搭配词的搭配度对搭配词进行排序,选取排在前几位的搭配词提供给用户。\n[0117] 本发明实施例所提供的方案在对中心词的搭配词在语料中的出现次数以及与中心词搭配出现的次数进行统计基础上,再进行二次计算,例如通过用搭配词与中心词搭配出现的次数除以搭配词在语料中的出现次数,有效地将与中心词搭配度较低的搭配词从搭配词集合中剔除,更加凸显了与中心词搭配度高的搭配词,根据计算得到的搭配度对搭配词进行重新排序,将与中心词搭配度高的搭配词提供给用户,提高了用户对中心词相关信息掌握的准确性和有效性。\n[0118] 为了描述的方便,本发明实施例在描述装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。\n[0119] 通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。\n[0120] 本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。\n[0121] 本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。\n[0122] 本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。\n[0123] 虽然通过实施例描绘了本发明,本领域普通技术人员知道,本发明有许多变形和变化而不脱离本发明的精神,希望所附的权利要求包括这些变形和变化而不脱离本发明的精神。
法律信息
- 2017-02-22
专利权人的姓名或者名称、地址的变更
专利权人由北京金山办公软件有限公司变更为北京金山办公软件股份有限公司
地址由100085 北京市海淀区小营西路33号金山软件大厦变更为100085 北京市海淀区小营西路33号金山软件大厦
- 2014-04-02
专利权的转移
登记生效日: 2014.03.12
专利权人由北京金山软件有限公司变更为北京金山办公软件有限公司
地址由100085 北京市海淀区小营西路33号金山软件大厦1层西区变更为100085 北京市海淀区小营西路33号金山软件大厦
专利权人由北京金山数字娱乐科技有限公司变更为空
- 2013-08-07
- 2012-01-18
实质审查的生效
IPC(主分类): G06F 17/27
专利申请号: 201010158112.1
申请日: 2010.04.22
- 2011-11-09
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |