著录项信息
专利名称 | 用于对待处理的短文本信息进行扩展的方法、装置和设备 |
申请号 | CN201010623672.X | 申请日期 | 2010-12-30 |
法律状态 | 授权 | 申报国家 | 暂无 |
公开/公告日 | 2012-07-11 | 公开/公告号 | CN102567290A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/21 | IPC分类号 | G;0;6;F;1;7;/;2;1;;;G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 百度在线网络技术(北京)有限公司 | 申请人地址 | 北京市海淀区上地十街10号百度大厦
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 百度在线网络技术(北京)有限公司 | 当前权利人 | 百度在线网络技术(北京)有限公司 |
发明人 | 冼健;陈宁昱;田浩 |
代理机构 | 北京汉昊知识产权代理事务所(普通合伙) | 代理人 | 罗朋 |
摘要
本发明提供一种用于对待处理的短文本信息进行扩展的方法、装置及计算机设备,其中,本发明获取所述待处理的短文本信息;通过所述短文本信息来获取与其相关的一个或多个相关扩展信息;并根据所述第一预定规则,并根据所述短文本信息,由所述一个或多个相关扩展信息来获得所述短文本信息的扩展特征词向量。与现有技术相比,本发明具有以下优点:1)本发明能够较好地对短文本信息进行扩展,通用性较强,并且便于维护,并获得针对性及可识别性较强的扩展特征信息;2)本发明不受限于短文本形式,并且不必先预存短文本特征匹配表,具有更广泛的应用场景。
1.一种计算机实现的用于对待处理的短文本信息进行扩展的方法,其中,该方法包括以下步骤:
-建立和更新扩展特征向量库,其中,该扩展特征向量库包括多个短文本信息及其对应的扩展特征词向量;
a获取所述待处理的短文本信息;
b基于该短文本信息来获取与其相关的一个或多个相关扩展信息;
c基于第一预定规则,并根据所述短文本信息,由所述一个或多个相关扩展信息来获得所述短文本信息的扩展特征词向量;
其中,所述扩展特征词向量包括多个扩展特征信息,所述每个扩展特征信息与所述短文本信息不完全相同;
其中,该方法还包括以下步骤:
A基于第二预定规则,根据所述待处理的短文本信息,在所述扩展特征向量库中进行查询,获得一个或多个相关短文本信息及其对应的扩展特征向量,其中,所述第二预定规则包括根据多层级匹配规则,逐级地对所述待处理短文本信息进行预定处理;
B根据所获得的所述相关短文本信息的扩展特征词向量,来获得所述待处理短文本信息的扩展特征词向量。
2.根据权利要求1所述的方法,其中,所述步骤c还包括以下步骤:
-对所述相关扩展信息进行切分,获得多个特征信息;
-基于所述第一预定规则,并根据所述短文本信息,由所述多个特征信息中选择所述多个扩展特征信息。
3.根据权利要求1所述的方法,其中,所述步骤c还包括以下步骤:
-基于所述第一预定规则,并根据所述短文本信息,由多个所述相关扩展信息中选择一个或多个相关扩展信息;
-对所选择的相关扩展信息进行切分,获得所述多个扩展特征信息。
4.根据权利要求1至3中任一项所述的方法,其中,所述第一预定规则参考以下至少一项因素:
-所述相关扩展信息与所述短文本信息的相关度;
-所述相关扩展信息的类别;
-所述短文本信息包含的信息单元在所述相关扩展信息中的分布状态;
-由所述相关扩展信息切分得到的特征信息与所述短文本信息的相似度。
5.根据权利要求1至3中任一项所述的方法,其中,所述第一预定规则还参考以下至少一项因素:
-由所述相关扩展信息切分得到的特征信息的分布状态;
-由所述相关扩展信息切分得到的特征信息的语义特征。
6.根据权利要求1至3中任一项所述的方法,其中,所述扩展特征词向量还包括分别与所述多个扩展特征信息相对应的多个权重值,
其中,所述步骤c还包括以下步骤:
-基于所述第一预定规则,并根据所述短文本信息获取所述多个扩展特征信息的权重值。
7.根据权利要求1所述的方法,其中,所述步骤A包括以下步骤:
A1根据所述待处理短文本信息的当前层级匹配规则对其进行相应处理;
A2判断处理后的待处理短文本信息是否能够与一个或多个已扩展短文本信息成功匹配;
A3当判断成功匹配时,将所述成功匹配的一个或多个已扩展短文本信息作为所述相关短文本信息,并获取该相关短文本信息对应的扩展特征词向量;
其中,所述步骤B包括以下步骤:
B1根据所述相关短文本信息的扩展特征词向量及当前匹配层级来获得所述待处理短文本信息的扩展特征词向量;
其中,所述步骤A1还包括以下步骤:
-当判断未能成功匹配时,选择下一层级匹配规则作为当前层级匹配规则;
-根据所选择的当前层级匹配规则对所述待处理短文本信息进行相应处理。
8.根据权利要求7所述的方法,其中,所述步骤A1中所述相应处理包括以下任一种:
-保留所述待处理短文本信息的全部内容的处理;
-去除无效信息的处理;
-根据预设的词汇权重值来提取信息单元的处理;
-将所述待处理短文本信息与其他短文本信息进行聚合的处理。
9.根据权利要求7或8所述的方法,其中,所述步骤B1中所述获得所述待处理短文本信息扩展特征词向量的方法包括以下至少一种:
-直接将所述相关短文本信息的扩展特征词向量作为所述待处理短文本信息的特征词向量;
-将多个所述相关短文本信息的扩展特征词向量进行合并处理后所得的扩展特征词向量作为所述待处理短文本信息的特征词向量。
10.根据权利要求1至3中任一项所述的方法,其中,所述步骤b还包括以下步骤:
b1获取基于短文本信息进行搜索而得到的一个或多个相关扩展信息。
11.根据权利要求10所述的方法,其中,在所述步骤b1之前还包括以下步骤:
-对所述短文本信息进行切词,获得信息单元;
-根据语义分析及/或预设的所述信息单元的重要度,选择信息单元来生成检索信息;
其中,所述步骤b1还包括以下步骤:
-获取基于检索信息进行搜索而得到的相关扩展信息。
12.一种用于对待处理的短文本信息进行扩展的短文本处理装置,其中,该短文本处理装置包括:
更新装置,用于建立和更新扩展特征向量库,其中,该扩展特征向量库包括多个短文本信息及其对应的扩展特征词向量;
a第一获取装置,用于获取所述待处理的短文本信息;
b第二获取装置,用于通过所述短文本信息来获取与其相关的一个或多个相关扩展信息;
c第一扩展装置,用于根据第一预定规则,并根据所述短文本信息,由所述一个或多个相关扩展信息来获得所述短文本信息的扩展特征词向量;
其中,所述扩展特征词向量包括多个扩展特征信息,所述每个扩展特征信息与所述短文本信息不完全相同;
其中,该短文本处理装置还包括:
查询装置,用于基于第二预定规则,根据所述待处理的短文本信息,在所述扩展特征向量库中进行查询,获得一个或多个相关短文本信息及其对应的扩展特征词向量,其中,所述第二预定规则包括根据多层级匹配规则,逐级地对所述待处理短文本信息进行预定处理;
第二扩展装置,用于根据所获得的所述相关短文本信息的扩展特征词向量,来获得所述待处理短文本信息的扩展特征词向量。
13.根据权利要求12所述的短文本处理装置,其中,所述第一扩展装置还包括:
-第一分析装置,用于对所述相关扩展信息进行切分,获得多个特征信息;
-第一子扩展装置,用于根据所述第一预定规则,并根据所述短文本信息,由所述多个特征信息中选择所述多个扩展特征信息。
14.根据权利要求12所述的短文本处理装置,其中,所述第一扩展装置还包括:
-第二分析装置,用于根据所述第一预定规则,并根据所述短文本信息,由多个所述相关扩展信息中选择一个或多个相关扩展信息;
-第二子扩展装置,用于对所选择的相关扩展信息进行切分,获得所述多个扩展特征信息。
15.根据权利要求12至14中任一项所述的短文本处理装置,其中,所述第一预定规则参考以下至少一项因素:
-所述相关扩展信息与所述短文本信息的相关度;
-所述相关扩展信息的类别;
-所述短文本信息包含的信息单元在所述相关扩展信息中的分布状态;
-由所述相关扩展信息切分得到的特征信息与所述短文本信息的相似度。
16.根据权利要求12至14中任一项所述的短文本处理装置,其中,所述第一预定规则还参考以下至少一项因素:
-由所述相关扩展信息切分得到的特征信息的分布状态;
-由所述相关扩展信息切分得到的特征信息的语义特征。
17.根据权利要求12至14中任一项所述的短文本处理装置,其中,所述扩展特征词向量还包括分别与所述多个扩展特征信息相对应的多个权重值,
其中,所述第一扩展装置还包括:
权重获取装置,用于基于所述第一预定规则,并根据所述短文本信息获取所述多个扩展特征信息的权重值。
18.根据权利要求12所述的短文本处理装置,其中,所述查询装置包括:
处理装置,用于根据所述待处理短文本信息的当前层级匹配规则对其进行相应处理;
判断装置,用于判断处理后的待处理短文本信息是否能够与一个或多个已扩展短文本信息成功匹配;
第三获取装置,用于当判断成功匹配时,将所述成功匹配的一个或多个已扩展短文本信息作为所述相关短文本信息,并获取该相关短文本信息对应的扩展特征词向量;
其中,所述第二扩展装置包括:
第三子扩展装置,用于根据所述相关短文本信息的扩展特征词向量及当前匹配层级来获得所述待处理短文本信息的扩展特征词向量;
其中,所述处理装置还包括:
层级选择装置,用于当判断未能成功匹配时,选择下一层级匹配规则作为当前层级匹配规则;
子处理装置,用于根据所选择的当前层级匹配规则对所述待处理短文本信息进行相应处理。
19.根据权利要求18所述的短文本处理装置,其中,所述处理装置所执行的所述相应处理包括以下任一种:
-保留所述待处理短文本信息的全部内容的处理;
-去除无效信息的处理;
-根据预设的词汇权重值来提取信息单元的处理;
-将所述待处理短文本信息与其他短文本信息进行聚合的处理。
20.根据权利要求18或19所述的短文本处理装置,其中,所述第三子扩展装置包括以下至少一个装置:
直接匹配装置,用于直接将所述相关短文本信息的扩展特征词向量作为所述待处理短文本信息的特征词向量;
合并匹配装置,用于将多个所述相关短文本信息的扩展特征词向量进行合并处理后所得的扩展特征词向量作为所述待处理短文本信息的特征词向量。
21.根据权利要求12至14中任一项所述的短文本处理装置,其中,所述第二获取装置还包括:
搜索获取装置,用于获取基于短文本信息进行搜索而得到的一个或多个相关扩展信息。
22.根据权利要求21所述的短文本处理装置,其中,该短文本处理装置还包括:
分词装置,用于对所述短文本信息进行切词,获得信息单元;
检索信息生成装置,用于根据语义分析及预设的所述信息单元的重要度,选择信息单元来生成检索信息;
其中,所述搜索获取装置还用于:
获取基于检索信息进行搜索而得到的相关扩展信息。
用于对待处理的短文本信息进行扩展的方法、装置和设备\n技术领域\n[0001] 本发明涉及计算机文本处理技术,尤其涉及一种用于对待处理的短文本信息进行\n扩展的方法、装置和设备。\n背景技术\n[0002] 对于短文本信息的扩展,传统的做法多是使用类别特征词表对短文本作匹配,但\n这种方法的效果、可扩展性都一般,并且不具有通用性,需要花费大量时间精力进行维护。\n发明内容\n[0003] 本发明的目的是提供一种对短文本信息进行扩展的方法和设备。\n[0004] 根据本发明的一个方面,提供一种计算机实现的用于对待处理的短文本信息进行\n扩展的方法,其中,该方法包括以下步骤:\n[0005] a获取所述待处理的短文本信息;\n[0006] b基于该短文本信息来获取与其相关的一个或多个相关扩展信息;\n[0007] c基于所述第一预定规则,并根据所述短文本信息,由所述一个或多个相关扩展信\n息来获得所述短文本信息的扩展特征词向量;\n[0008] 其中,所述扩展特征词向量包括多个扩展特征信息,所述每个扩展特征信息与所\n述短文本信息不完全相同。\n[0009] 根据本发明的另一个方面,还提供了一种用于对待处理的短文本信息进行扩展的\n短文本处理装置,其中,该短文本处理装置包括:\n[0010] 第一获取装置,用于获取所述待处理的短文本信息;\n[0011] 第二获取装置,用于通过所述短文本信息来获取与其相关的一个或多个相关扩展\n信息;\n[0012] 第一扩展装置,用于根据所述第一预定规则,并根据所述短文本信息,由所述一个\n或多个相关扩展信息来获得所述短文本信息的扩展特征词向量;\n[0013] 其中,所述扩展特征词向量包括多个扩展特征信息,所述每个扩展特征信息与所\n述短文本信息不完全相同。\n[0014] 根据本发明的再一个方面,还提供了一种计算机设备,其中,该计算机设备包括上\n述短文本处理装置。\n[0015] 与现有技术相比,本发明具有以下优点:1)本发明能够较好地对短文本信息进行\n扩展,通用性较强,并且便于维护;2)当相关扩展信息为通过对短文本信息进行搜索而获\n得时,对于搜索频率较高的短文本信息,能够利用搜索特性,获得相关性较好的相关扩展信\n息,进一步提高了所得扩展特征信息的针对性及可识别性;3)当难以获得具有较好相关性\n的相关扩展信息时,能够通过多级短文本信息拟合,快速获得针对性及可识别性较强的扩\n展特征信息;4)本发明不受限于短文本形式,并且不必先预存短文本特征匹配表,具有更\n广泛的应用场景;5)根据本发明的方案所得的短文本扩展信息能够在多种应用中辅助相\n应设备进行短文本信息处理操作,例如,在搜索环境中辅助搜索引擎判断短文本信息间的\n相关性或短文本信息类别,并进一步根据所得的短文本信息相关性或类别来进行其他操\n作,以使所提供的信息更符合用户所希望搜索的内容;或者,在本机或网络输入法中用于辅\n助输入法处理装置根据用户输入的输入序列来选择提供给用户的输入法候选项;或者,在\nB2B/B2C网站中用于辅助网站相应处理设备判断用户的实际需要的商品等。\n附图说明\n[0016] 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它\n特征、目的和优点将会变得更明显:\n[0017] 图1为本发明一个方面的计算机实现的用于对待处理的短文本信息进行扩展的\n方法流程图;\n[0018] 图2为本发明一个优选实施例的用于对待处理的短文本信息进行扩展的方法流\n程图;\n[0019] 图3为本发明另一优选实施例的用于对待处理的短文本信息进行扩展的方法流\n程图;\n[0020] 图4为本发明再一优选实施例的用于实施识别短文本类别信息的方法流程图。\n[0021] 图5为本发明另一个方面的用于对待处理的短文本信息进行扩展的短文本处理\n装置的结构示意图。\n[0022] 图6为本发明一个优选实施例的用于对待处理的短文本信息进行扩展的短文本\n处理装置结构示意图。\n[0023] 图7为本发明另一个优选实施例的用于对待处理的短文本信息进行扩展的短文\n本处理装置结构示意图。\n[0024] 图8为本发明再一优选实施例的用于对待处理的短文本信息进行扩展的短文本\n处理装置结构示意图。\n[0025] 附图中相同或相似的附图标记代表相同或相似的部件。\n具体实施方式\n[0026] 下面结合附图对本发明作进一步详细描述。\n[0027] 图1示意出了本发明一个方面的计算机实现的用于对待处理的短文本信息进行\n扩展的方法流程图。其中,所述短文本信息包括但不限于:1)来自用户的输入序列;2)计算\n机设备当前需要处理的信息等。其中,根据本发明的方法可通过计算机设备中的操作系统\n或处理控制芯片来完成,为简明起见,以下将所述操作系统或处理控制芯片统称为短文本\n处理装置。其中,该计算机设备包括但不限于:1)用户设备;2)网络设备。所述用户设备包\n括但不限于计算机、智能手机、PDA等;所述网络设备包括但不限于单个网络服务器、多个\n网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务\n器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超\n级虚拟计算机。\n[0028] 在步骤S1中,短文本处理装置获取待处理的短文本信息。其中,该短文本处理装\n置获取该待处理短文本信息的方法包括但不限于:1)实时获取用户直接输入或经由其他\n设备或装置输入的输入序列,或者,实时获取计算机设备当前需要处理的信息;2)获取预\n存储在所述计算机设备或其他设备中的需要进行扩展处理的短文本信息。\n[0029] 在步骤S2中,短文本处理装置基于该短文本信息来获取与其相关的一个或多个\n相关扩展信息。其中,所述相关扩展信息包括但不限于:1)文本标题信息;2)文本摘要信\n息;3)网页的全部文本内容信息等。\n[0030] 所述获取一个或者多个相关扩展信息的方式包括但不限于:\n[0031] 1)获取基于短文本信息进行搜索而得到的一个或多个相关扩展信息;\n[0032] 例如,短文本处理装置获取用户输入的短文本“DNF游戏下载”(以下称为第一短\n文本信息),短文本处理装置基于该短文本在网络上或本机中进行搜索,来获得搜索结果\n项,并根据网页标识符等来对搜索结果项进行识别,以获得以下与第一短文本信息相关的\n相关扩展信息。\n[0033] 第一相关扩展信息:“游戏下载地下城与勇士DNF官方网站腾讯游戏、DNF地下城\n与勇士52PK站提供最全最新DNF视频、DNF下载等内容,是国内最大的地下城与勇士DNF官\n网合作网站之一。”其中,短文本处理装置分析得到其为内容类别的相关扩展信息。\n[0034] 第二相关扩展信息:“DNF外挂天迹社区游戏。”其中,短文本处理装置分析得到其为标题类别的相关扩展信息。\n[0035] 第三相关扩展信息:“《地下城与勇士DNF》最新客户端下载进入专区文件大小\n1.44GB文件类别客户端游戏语言简体中文官方网站点击进入游戏专区点击进入游戏交\n流。”其中,短文本处理装置分析得到其为内容类别的相关扩展信息。\n[0036] 2)获取预存储的与该短文本信息相关的相关扩展信息等;其中,该预存储的相关\n扩展信息可存储在所述计算机设备中,或存储在与该计算机设备物理分离但通信连接的设\n备中;\n[0037] 例如,短文本处理装置中已经预存储了与第一短文本信息相关的第一相关扩展信\n息,则短文本处理装置可以在获取第一短文本信息之后,在其预存的相关扩展信息中获取\n与第一短文本信息相关的第一相关扩展信息。\n[0038] 在步骤S3中,短文本处理装置基于第一预定规则,根据所述短文本信息,由所述\n一个或多个相关扩展信息来获得所述短文本信息的扩展特征词向量;其中,所述扩展特征\n词向量包括多个扩展特征信息,所述每个扩展特征信息与所述短文本信息不完全相同。\n[0039] 所述扩展特征信息包括但不限于:1)与短文本信息相关的特征信息;2)该特征信\n息所在的相关扩展信息的发布时间;3)该特征信息所在的相关扩展信息的用户点击数;4)\n该特征信息所在的相关扩展信息与短文本的相关度等。\n[0040] 其中,第一预定规则中包含参考以下至少一项因素,来获得扩展特征词向量的规\n则:\n[0041] 1)所述相关扩展信息与所述短文本信息的相关度;\n[0042] 2)所述相关扩展信息的类别;\n[0043] 3)所述短文本信息在所述相关扩展信息中的分布状态;\n[0044] 4)由所述相关扩展信息切分得到的特征信息与所述短文本信息的相似度。\n[0045] 以下对短文本处理装置根据上述每项信息及其组合来获得扩展特征词向量的方\n式予以详述:\n[0046] 1)所述相关扩展信息与所述短文本信息的相关度;\n[0047] 所述相关度的确定方式包括但不限于:\n[0048] a)根据人工预设的相关扩展信息与短文本信息的相关度来确定;\n[0049] b)根据相关扩展信息所包含的信息单元数量确定相关度;其中,所述信息单元通\n过切分短文本信息而得到;\n[0050] 具体地,相关扩展信息中信息单元重复出现的累计数量越多,则该相关扩展与该\n短文本的相关度越高;短文本处理装置按照由相关扩展信息切分得到的特征信息所在的相\n关扩展信息与该短文本信息的相关度,来对特征信息进行排序,并根据特征信息排序结果\n来选择特征信息。\n[0051] 例如,对于短文本信息“DNF游戏下载”,短文本处理装置对其切分以获得三个信息单元“DNF”、“游戏”、“下载”,则短文本处理装置在与该短文本信息对应的相关扩展信息中分别统计每个相关扩展信息中该三个信息单元重复出现的累计数量。若与短文本信息“DNF\n游戏下载”相关的所有相关扩展信息包括第一相关扩展信息、第二相关扩展信息及第三相\n关扩展信息,短文本处理装置统计得到第一相关扩展信息中包含三个信息单元“DNF”、“游戏”、“下载”,三个信息单元累计出现的总次数为9,第二相关扩展信息中包含两个信息单元“DNF”、“游戏”,其累计出现的总次数为2,第三相关扩展信息中包含三个信息单元“DNF”、“游戏”、“下载”,三个信息单元累计出现的总次数为5,则短文本处理装置判断相关扩展信息与短文本信息的相关度从高到低依次为第一相关扩展信息、第三相关扩展信息和第二相\n关信息。随后,短文本处理装置对第一至第三相关扩展信息进行切分,以获得特征信息,例\n如,若第二相关扩展信息为“DNF外挂天迹社区游戏”,则由第二相关扩展信息切分所得的特征信息包括“DNF”、“外挂”、“天际”、“社区”、“游戏”等。短文本信息按照特征信息所在的相关扩展信息与短文本信息的相关度由高至低,来对特征信息进行排序。当相关扩展信息相\n关度相同时,对特征信息进行随机排序。短文本处理装置根据排序结果来选择特征信息以\n生成扩展特征词向量,例如,选择排序结果为前N位的特征信息以生成扩展特征词向量等。\n其中,本领域技术人员应可根据实际情况和需求来选择并设定N的值。\n[0052] c)当所述相关扩展信息为搜索结果项时,根据搜索结果的排序来确定相关度等;\n[0053] 具体地,搜索结果排序越靠前的相关扩展信息,其相关度越高。\n[0054] 随后,短文本处理装置对短文本信息对应的相关扩展信息进行切分以获得特征信\n息,并根据特征信息所在的相关扩展信息与短文本信息的相关度由高至低来对特征信息进\n行排序,并根据排序结果来选择特征信息以生成扩展特征词向量。\n[0055] 2)所述相关扩展信息的类别;\n[0056] 所述相关扩展信息的类别包括但不限于:a)标题;b)内容等。需要说明的是,该类\n别仅为更好地说明本发明的例举,本领域技术人员应该理解,相关扩展信息的分类不以“标\n题”和“内容”为限,例如,还可包括“广告”、“提示信息”等等。\n[0057] 具体地,短文本处理装置根据预设的类别重要度来确定相关扩展信息与短文本信\n息的相关度,并根据相关扩展信息与短文本信息的相关度来选择特征信息以生成扩展特征\n词向量。。\n[0058] 例如,预设的类别重要度中,“标题”的重要度高于“内容”的重要度,则短文本处理装置预设首先对标题类别的相关扩展信息进行分割,以获得特征信息。若由标题类别的相\n关扩展信息中获得的特征信息达到第一预定阈值,则根据由标题类别的相关扩展信息中获\n得的特征信息来生成扩展特征词向量;若由标题类别的相关扩展信息中获得的特征信息未\n达到第一预定阈值,则继续对内容类别的相关扩展信息进行分割,直至特征信息的数量达\n到第一预定阈值,随后,根据由标题及内容类别的相关扩展信息中获得的特征信息来生成\n扩展特征词向量。其中,本领域技术人员应可根据实际情况和需求来设定该第一预定阈值。\n[0059] 3)所述短文本信息包含的信息单元在所述相关扩展信息中的分布状态;\n[0060] 所述短文本信息在所述相关扩展信息中的分布状态包括但不限于:\n[0061] a)短文本信息中的信息单元在相关扩展信息中出现的频次;\n[0062] 具体地,信息单元出现的频次越高,相关扩展信息的重要性越高。\n[0063] 例如,对于短文本信息“DNF游戏下载”,其包含三个信息单元“DNF”、“游戏”、“下载”,短文本处理装置统计得到上述三个信息单元在与短文本信息相关的第一、第二及第三\n相关扩展信息中出现的频次分别为:7,6,3,则短文本信息判断上述三者与短文本信息相关度由高至低的顺序依次为第一相关扩展信息、第二相关扩展信息、第三相关扩展信息。则短\n文本处理装置对短文本信息对应的相关扩展信息进行切分以获得特征信息,并根据特征信\n息所在的相关扩展信息与短文本信息的相关度由高至低来对特征信息进行排序,并根据排\n序结果来选择特征信息以生成扩展特征词向量。\n[0064] b)短文本信息包含的信息单元在相关扩展信息中所处的位置;\n[0065] 具体地,信息单元在相关扩展信息中某一位置出现的次数越多,该位置的相关扩\n展信息与短文本信息的相关度越高。\n[0066] 例如,若短文本处理装置根据段落分隔符,例如“↓”等,检测到与短文本信息相关的两个相关扩展信息中共包含三个段落,且短文本信息包含的信息单元在第一个段落中出\n现四次,在第二个段落中出现五次,在第三个段落中出现一次,则短文本处理装置判断与短\n文本信息的相关度由高至低的顺序为第二个段落、第一个段落、第三个段落。随后,短文本\n处理装置对各个段落进行分割,以获得特征信息,并根据特征信息所在的相关扩展信息与\n短文本信息的相关度由高至低来对特征信息进行排序,并根据排序结果来选择特征信息以\n生成扩展特征词向量。\n[0067] 4)由所述相关扩展信息切分得到的特征信息与所述短文本信息的相似度。\n[0068] 具体地,短文本处理装置对相关扩展信息进行切分,以获得特征信息。短文本处理\n装置根据特征信息与短文本信息的相似度由高至低来对特征信息进行排序,并根据排序结\n果来选择特征信息以生成扩展特征词向量。\n[0069] 其中,确定特征信息与短文本信息的相似度的方式包括但不限于:a)根据特征信\n息与短文本信息的编辑距离来确定;b)根据特征信息与短文本信息的语义近似度来确定\n等。\n[0070] 具体地,特征信息与短文本信息的编辑距离越短,两者的相似度越高;特征信息与\n短文本信息的语义近似度越高,两者的相似度越高。其中,语义近似度可以通过多种方法获\n得,例如,根据预设的同义词典来获得等。\n[0071] 需要说明的是,短文本处理装置还可结合上述四种因素中的任意若干种,来获得\n所述短文本信息的扩展特征词向量。例如,短文本处理装置根据相关扩展信息的类别及相\n关扩展信息与短文本信息的相关度来获得扩展特征词向量。具体地,预设相关扩展信息的\n类别重要性高于相关扩展信息与短文本信息的相关度。则短文本处理装置先根据相关扩展\n信息的类别来对相关扩展信息进行排序,获得“标题”类别靠前,“内容”类别靠后的相关扩展信息排序结果,随后,短文本处理装置再在“标题”及“内容”类别的相关扩展信息中,分别根据相关扩展信息与短文本信息的相关度由高至低进行排序。例如,若短文本信息对应\n第一至第四相关扩展信息,其中,第一及第二相关扩展信息类别为“标题”,第三及第四相关扩展信息类别为“正文”,则短文本处理装置获得的根据类别排序的排序结果为第一相关扩\n展信息、第二相关扩展信息、第三相关扩展信息、第四相关扩展信息。随后,短文本处理装置获得第一相关扩展信息与短文本信息的相似度高于第二相关扩展信息,第四相关扩展信息\n与短文本信息的相似度高于第三相关扩展信息,则短文本处理装置根据相关扩展信息与短\n文本信息的相似度进行再次排序,获得排序结果为第一相关扩展信息、第二相关扩展信息、\n第四相关扩展信息、第三相关扩展信息。则短文本处理装置对第一至第四相关扩展信息进\n行切分以获得特征信息,并根据特征信息所在的相关扩展信息与短文本信息的相关度由高\n至低来对特征信息进行排序,并根据排序结果来选择特征信息以生成扩展特征词向量。\n[0072] 需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发\n明的限制,本领域技术人员应该理解,任何基于所述第一预定规则,并根据所述短文本信\n息,由所述一个或多个相关扩展信息来获得所述短文本信息的扩展特征词向量的实现方\n式,均应包含在本发明的范围内。\n[0073] 优选的,在上述过程中,第一预定规则还可以参考以下因素,来获得短文本信息的\n扩展特征词向量;或者在已经生成了扩展特征词向量以后,短文本处理装置根据以下因素,\n并基于第一预定规则来对已有的扩展特征词向量进行调整。\n[0074] 1)由所述相关扩展信息切分得到的特征信息的分布状态;\n[0075] 所述特征信息的分布状态包括但不限于:\n[0076] a)特征信息在与所有待处理短文本信息相关的相关扩展信息中出现的频次;\n[0077] 在计算机设备或其他设备中存储有与所有待处理短文本信息及其对应的相关扩\n展信息,为简洁起见,简称该与所有待处理短文本信息及其对应的相关扩展信息为全局信\n息,短文本处理装置根据特征信息在全局信息中出现的频次,来对特征信息进行排序,或调\n整已排序的特征信息的位置。\n[0078] 具体地,特征信息在全局数据中出现的频次越高,其排序位置越靠后。\n[0079] 例如,对于特征信息“dnf”及“游戏”,短文本处理装置检测到“dnf”在全局数据中出现10235次,“游戏”在全局数据中出现50349次,则短文本处理装置将“dnf”排在“游戏”之前的位置。\n[0080] 又例如,特征信息“dnf”及“游戏”均包含在标题类别的相关扩展信息中,短文本处理装置在根据标题类别进行排序的过程中,随机将“游戏”排在“dnf”之前的位置,并根据该排序结果生成了扩展特征词向量,则在扩展特征词向量中,“游戏”相对“dnf”的位置更靠前。随后,短文本处理装置检测到“dnf”在全局数据中出现10235次,“游戏”在全局数据中出现50349次,则短文本处理装置将“dnf”调整至“游戏”之前。\n[0081] b)特征信息在所有待处理短文本信息中出现的频次等;\n[0082] 例如,短文本处理装置统计第一短文本信息的相关扩展信息切分得到的特征信\n息“DNF”、“游戏”、“下载”在所有待处理短文本信息中的出现频次,其频次由低到高为:“下载”、“游戏”、“DNF”,则短文本处理装置根据频次由低到高来对特征信息进行排序,以选择特征信息来生成扩展特征词向量。\n[0083] 2)所述相关扩展信息切分得到的特征信息的语义特征。\n[0084] 所述特征信息的语义特征通过以下至少一种因素来进行评价:a)特征信息的词\n性;b)特征信息对应的表意能力;c)该特征信息是否有效等。\n[0085] 具体的,词性的重要性越高,语义特征越强;表意能力等级越高,语义特征越强;\n有效的特征信息语义特征较强,无效的特征信息语义特征较弱。其中,词性的重要性、表意\n能力等级高低及无效特征信息,均由预设得到。\n[0086] 若预设词性的重要性为名词大于动词,表意能力等级由高到低分别为第一级、第\n二级和第三级。例如,对于由第一短文本信息的相关扩展信息切分得到的特征信息“DNF”、“游戏”、“下载”,短文本处理装置根据语义分析判断“DNF”及“游戏”为名词,“下载”为动词,短文本处理装置查询表意能力词表得到“DNF”的表意能力为第一级,“游戏”的表意能力为第二级,“下载”的表意能力为第三级,并且,短文本处理装置未在无效信息词表中查询到上述三者中的任一者,则短文本处理装置先根据词性、再根据表意能力,对特征信息进行排序\n的结果为“DNF”、“游戏”、“下载”。\n[0087] 需要说明的是,短文本处理装置还可结合上述两种因素,来获得或调整所述短文\n本信息的扩展特征词向量,例如,先对特征信息根据分布状态进行排序,对处于相同排名的\n特征信息的语义特征进行分析,并根据语义特征强弱进行排序,最后获得总排序结果,短文\n本处理装置根据总排序结果,选择特征信息,生成扩展特征词向量。\n[0088] 根据本发明的方案所得的短文本扩展信息能够在多种应用中辅助相应设备进行\n短文本信息处理操作,例如,在搜索环境中辅助搜索引擎判断短文本信息间的相关性或短\n文本信息类别,并进一步根据所得的短文本信息相关性或类别来进行其他操作,以使所提\n供的信息更符合用户所希望搜索的内容;或者,在本机或网络输入法中用于辅助输入法处\n理装置根据用户输入的输入序列来选择提供给用户的输入法候选项;或者,在B2B/B2C网\n站中用于辅助网站相应处理设备判断用户的实际需要的商品等。本领域技术人员应该理\n解,本发明方案的应用环境不以上述举例为限。\n[0089] 作为本发明的优选方案之一,所述扩展特征词向量还包括分别与所述多个扩展特\n征信息相对应的多个权重值,其中,所述步骤S3还包括步骤S35(图未示),在步骤S35中,\n短文本处理装置基于所述第一预定规则,并根据所述短文本信息获取所述多个扩展特征信\n息的权重值。\n[0090] 具体的,权重值的获取参考以下至少一项因素:\n[0091] 1)所述相关扩展信息与所述短文本信息的相关度;\n[0092] 具体的,相关扩展信息与所述短文本信息的相关度越高,该相关扩展信息中包含\n的扩展特征信息权重值越大。其中,相关度的确定方式包括但不限于:a)根据人工预设的\n相关扩展信息与短文本信息的相关度来确定;b)根据相关扩展信息所包含的由切分短文\n本信息所得的信息单元数量确定相关度;c)当所述相关扩展信息为搜索结果项时,根据搜\n索结果的排序来确定相关度等。\n[0093] 例如,第一预定规则中预设相关扩展信息的初始权重值为0,若一个相关扩展信息\n出现其中一项信息单元,则其权重值增加1。则对于短文本信息“DNF游戏下载”,其对应的\n相关扩展信息为第一至第三相关扩展信息。短文本处理装置设置第一至第三相关扩展信息\n的初始权重值为0,并切分短文本信息以获得信息单元“DNF”、“游戏”、“下载”,短文本处理装置基于第一预定规则,并检测各个相关扩展信息中信息单元的出现次数来调整权重值,\n获得第一至第三相关扩展信息中包含的特征信息的权重值依次为:9、2、5。\n[0094] 随后,短文本处理装置根据权重值由大到小的顺序,选择特征信息以作为扩展特\n征信息,并根据扩展特征信息及其对应的权重值生成扩展特征词向量。\n[0095] 2)所述相关扩展信息的类别;\n[0096] 所述相关扩展信息的类别包括但不限于:a)标题;b)内容等。\n[0097] 具体地,预设各种类别的相关扩展信息所包含的特征信息的权重值不同。\n[0098] 例如,预设标题类别的相关扩展信息包含的特征信息权重值为10,内容类别的相\n关扩展信息包含的特征信息权重值为5。对于短文本信息“DNF游戏下载”,其对应的相关扩\n展信息为第一至第三相关扩展信息。其中,第一相关扩展信息的类别为“内容”、第二相关扩展信息的类别为“标题”、第三相关扩展信息的类别为“内容”。则短文本处理装置判断第一至第三相关扩展信息包含的特征信息的权重值依次为:5、10、5。随后,短文本处理装置根据权重值由大到小的顺序,选择特征信息以作为扩展特征信息,并根据扩展特征信息及其对\n应的权重值生成扩展特征词向量。\n[0099] 3)所述短文本信息在所述相关扩展信息中的分布状态;\n[0100] 其中,所述分布状态包括但不限于:\n[0101] a)短文本信息中的信息单元在相关扩展信息中出现的频次;\n[0102] 具体的,信息单元在相关扩展信息中出现的频次越高,该相关扩展信息所包含的\n特征信息的权重值越大。\n[0103] 例如,若第一预定规则中预设将信息单元在相关扩展信息中出现的频次作为该相\n关扩展信息的权重值。则对于短文本信息“DNF游戏下载”,其包括信息单元“DNF”、“游戏”、“下载”,短文本处理装置统计得到上述三个信息单元在与短文本信息相关的第一、第二及\n第三相关扩展信息中出现的频次分别为:7,6,3,则短文本处理装置获得第一、第二及第三相关扩展信息所包含的特征信息的权重值分别为7,6,3。随后,短文本处理装置根据权重值由大到小的顺序,选择特征信息以作为扩展特征信息,并根据扩展特征信息及其对应的权\n重值生成扩展特征词向量。\n[0104] b)短文本信息包含的信息单元在相关扩展信息中所处的位置等;\n[0105] 具体地,信息单元在相关扩展信息中某一位置出现的次数越多,该位置的相关扩\n展信息所包含的特征信息的权重值越高。\n[0106] 例如,若短文本处理装置根据段落分隔符,例如“↓”等,检测到与短文本信息相关的两个相关扩展信息中共包含三个段落,且短文本信息包含的信息单元在第一个段落中出\n现四次,在第二个段落中出现五次,在第三个段落中出现一次,则短文本处理装置获得第一\n个段落、第二个段落及第三个段落所包含的特征信息的权重值依次为4,5,1。\n[0107] 随后,短文本处理装置根据权重值由大到小的顺序,选择特征信息以作为扩展特\n征信息,并根据扩展特征信息及其对应的权重值生成扩展特征词向量。\n[0108] 4)由所述相关扩展信息切分得到的特征信息与所述短文本信息的相似度等;\n[0109] 具体的,特征信息与所述短文本信息的相似度越高,该特征信息的权重值越大。\n[0110] 例如,短文本处理装置将一个特征信息与短文本信息的相似度直接作为该特征信\n息的权重值;又例如,根据一个特征信息与短文本信息的相似度所处的等级,来确定该特征\n信息的权重值等。\n[0111] 其中,确定特征信息与短文本信息的相似度的方式包括但不限于:a)根据特征信\n息与短文本信息的编辑距离来确定;b)根据特征信息与短文本信息的语义近似度来确定\n等。\n[0112] 随后,短文本处理装置根据权重值由大到小的顺序,选择特征信息以作为扩展特\n征信息,并根据扩展特征信息及其对应的权重值生成扩展特征词向量。\n[0113] 5)由所述相关扩展信息切分得到的特征信息的分布状态;\n[0114] 所述特征信息的分布状态包括但不限于:a)特征信息在与所有待处理短文本信\n息相关的相关扩展信息中出现的频次;b)特征信息在所有待处理短文本信息中出现的频\n次等;\n[0115] 具体的,上述两个频次越低,特征信息的权重值越大。\n[0116] 例如,第一预定规则中预设特征信息的初始权重值为1000,特征信息每检测到一\n次,其权重减少0.1。对于特征信息“DNF”,短文本处理装置检测到其出现频次为2560,则获得其权重值为1000-2560*0.1=744。\n[0117] 又例如,短文本处理装置将特征信息在所有待处理短文本信息中出现的频次的倒\n数直接作为该扩展特征信息的权重值;\n[0118] 随后,短文本处理装置根据权重值由大到小的顺序,选择特征信息以作为扩展特\n征信息,并根据扩展特征信息及其对应的权重值生成扩展特征词向量。\n[0119] 6)由所述相关扩展信息切分得到的特征信息的语义特征等;\n[0120] 具体的,特征信息的语义特征越强,其权重值越大。\n[0121] 所述特征信息的语义特征通过以下至少一种因素来进行评价:a)特征信息的词\n性;b)特征信息对应的表意能力;c)该特征信息是否有效等。\n[0122] 例如,若第一预定规则中预设名词的权重为3,动词的权重值为2,表意能力为第\n一级的特征信息权重为3,表意能力为第二级的特征信息权重为2,表意能力为第三级的特\n征信息权重为1,无效信息的权重值为零,有效信息的权重值为1,并根据(词性权重值+表\n意能力权重值)*无效信息权重值的方式,来获得特征信息的语义特征权重值。例如,对于\n特征信息“DNF”,短文本处理装置判断其为名词,查询表意能力词表得到其表意能力为第一级,并且,短文本处理装置未在无效信息词表中查询到“DNF”,即“DNF”为有效信息,则短文本处理装置获得“DNF”的语义特征权重值=(3+3)*1=6。需要说明的是,上述权重值的预\n定及计算方式仅为例举,而并非对本发明的限制。\n[0123] 随后,短文本处理装置根据权重值由大到小的顺序,选择特征信息以作为扩展特\n征信息,并根据扩展特征信息及其对应的权重值生成扩展特征词向量。\n[0124] 需要说明的是,短文本处理装置还可以结合上述六种因素中的任意若干种来获取\n权重值,以生成所述短文本信息的扩展特征词向量。\n[0125] 例如,短文本处理装置首先获取一个特征信息根据上述六种因素而分别获得的六\n个权重值,然后,获取该六个权重值的平均值以作为该特征信息的平均值,或者,对该六个\n权重值,分别赋予权值,将六个权值分别与六个权重值相乘,并获取六个相乘结果的平均值\n以作为该特征信息的权重值等。\n[0126] 需要说明的是,短文本处理装置确定特征信息或者信息单元的权重值后,还可以\n通过设定权重值的阈值的方式,选择用于生成扩展特征词向量的特征信息或者信息单元。\n[0127] 需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发\n明的限制,本领域技术人员应该理解,任何基于所述第一预定规则,并根据所述短文本信\n息,由所述一个或多个相关扩展信息来获得所述短文本信息的扩展特征词向量的实现方\n式,均应包含在本发明的范围内。\n[0128] 作为本发明的优选方案之一,在在所述步骤S2之前还包括步骤S11(图未示)及\n步骤S12(图未示):\n[0129] 在步骤S11中,短文本处理装置对所述短文本信息进行切词,获得信息单元;\n[0130] 在步骤S12中,短文本处理装置根据语义分析及/或预设的所述信息单元的重要\n度,选择信息单元来生成检索信息;\n[0131] 则在步骤S2中,短文本处理装置获取基于检索信息进行搜索而得到的相关扩展\n信息。\n[0132] 其中,所述语义分析包括对信息单元的词性分析,例如,判断信息单元为实词或虚\n词等。信息单元的重要度通过查询预设的单元重要度信息来获取。\n[0133] 例如,短文本处理装置短文本信息“关于DNF的游戏下载”进行切词,获得信息\n单元“关于”、“DNF”、“的”、“游戏”、“下载”、“网站”。短文本处理装置判断得到“DNF”、“游戏”、“下载”、“网站”为实词,“关于”、“的”为虚词,则短文本处理装置选择实词信息单元,即“DNF”、“游戏”、“下载”、“网站”来生成检索信息。\n[0134] 又例如,单元重要度信息中包括“关于”、“的”为省略单元的信息,则短文本处理装置查询单元重要度信息后,去除信息单元“关于”、“的”,保留信息单元“DNF”、“游戏”、“下载”、“网站”来生成检索信息。\n[0135] 需要说明的是,本领域技术人员应该理解,上述举例仅为更好地说明本发明的技\n术方案,而非对本发明所做的限制,任何根据所述第一预定规则,获取待处理短文本的扩展\n特征词向量的方案,均应包含在本发明的范围内,并以引用的方式包含于此。\n[0136] 根据本实施例的方法,能够较好地对短文本信息进行扩展,通用性较强,并且便于\n维护。特别是当相关扩展信息为通过对短文本信息进行搜索而获得的情况下,对于搜索频\n率较高的短文本信息,能够利用搜索特性,获得相关性较好的相关扩展信息,进一步提高了\n所得扩展特征信息的针对性及可识别性。\n[0137] 图2为本发明一个优选实施例的用于对待处理的短文本信息进行扩展的方法流\n程图。根据本实施例的方法包括步骤S1、步骤S2及步骤S3。其中,步骤S3进一步包括步\n骤S31和步骤S32。\n[0138] 步骤S1及步骤S2已在参照图1所示的实施例中予以详述,并以引用的方式包含\n于此,不再赘述。\n[0139] 在步骤S31中,短文本处理装置对所述相关扩展信息进行切分,获得多个特征信\n息。\n[0140] 例如,短文本处理装置根据第一短文本信息获得的所有相关扩展信息为第一至第\n三相关扩展信息,对第一至第三相关扩展信息进行切分,并去除相关扩展信息中的无效信\n息后,获得的特征信息包括“DNF”、“游戏”、“地下城与勇士”、“下载”、“网站”、“进入”、“官方”、“最新”、“客户端”、“专区”、“文件”、“点击”、“腾讯”。其中,可通过查询预设的无效信息词典来去除无效信息;或者,通过去除虚词,来去除无效信息;或者,当短文本信息中所包\n含的信息单元本身的权重值低于预定无效阈值时,去除该信息单元。\n[0141] 在步骤S32中,短文本处理装置基于所述第一预定规则,并根据所述短文本信息,\n由所述多个特征信息中选择所述多个扩展特征信息。\n[0142] 例如,短文本处理装置根据第一短文本信息获得的所有相关扩展信息为第一至第\n三相关扩展信息,对第一至第三相关扩展信息进行切分,并合并相同的特征信息,获得特征\n信息以及其合并次数具体如下:\n[0143] 特征信息 合并次数\n[0144] DNF 7\n[0145] 游戏 6\n[0146] 地下城与勇士 4\n[0147] 下载 3\n[0148] 网站 3\n[0149] 进入 3\n[0150] 官方 2\n[0151] 最新 2\n[0152] 客户端 2\n[0153] 专区 2\n[0154] 文件 2\n[0155] 点击 2\n[0156] 腾讯 1\n[0157] …… ……\n[0158] 短文本处理装置可根据合并次数,对上述特征信息进行由高到低的排序,并根据\n排序结果选择特征信息来生成扩展特征词向量。优选的,选择前N位的特征信息来生成扩\n展特征词向量,其中,本领域技术人员应可根据实际情况和需求来选择并设定N的值。\n[0159] 又例如,对于上述特征信息,短文本处理装置基于第一预定规则来进行排序,并根\n据排序结果来选择特征信息,以生成扩展特征词向量。其中,基于第一预定规则来对特征信\n息进行排序的方式,已在参照图1所示实施例中予以详述,并以引用的方式包含于此,不再\n赘述。\n[0160] 又例如,短文本处理装置切分相关扩展信息获得特征信息后,就第一预定规则,计\n算与特征信息相应的权重值,并根据权重值来选择特征信息,以生成第一短文本信息的扩\n展特征词向量。其中,基于第一预定规则计算权重值的方法已在参照图1所示的实施例中\n予以详述,并以引用的方式包含于此,不再赘述。\n[0161] 需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限\n制,本领域技术人员应该理解,任何基于所述第一预定规则,并根据所述短文本信息,由所\n述多个特征信息中选择所述多个扩展特征信息的实现方式,均应包含在本发明的范围内。\n[0162] 图3为本发明一个优选实施例的用于对待处理的短文本信息进行扩展的方法流\n程图。根据本实施例的方法包括步骤S1、步骤S2及步骤S3。其中,步骤S3进一步包括步\n骤S33和步骤S34。\n[0163] 步骤S1及步骤S2已在参照图1所示的实施例中予以详述,并以引用的方式包含\n于此,不再赘述。\n[0164] 在步骤S33中,短文本处理装置基于所述第一预定规则,并根据所述短文本信息,\n由多个所述相关扩展信息中选择一个或多个相关扩展信息。\n[0165] 其中,基于第一预定规则来由多个所述相关扩展信息中选择一个或多个相关扩展\n信息的方式已经在参照图1的实施例中予以说明,并以引用的方式于此,不再赘述。\n[0166] 在步骤S34中,短文本处理装置对所选择的相关扩展信息进行切分,获得所述多\n个扩展特征信息。\n[0167] 例如,短文本处理装置选择第一相关扩展信息,对其进行切分并去除无效信息,获\n得的多个特征信息包括:“游戏”、“下载”、“地下城与勇士”、“DNF”、“官方”。随后,短文本处理装置根据获得的特征信息,生成第一短文本信息的扩展特征词向量。\n[0168] 又例如,短文本处理装置获得多个特征信息:“游戏”、“下载”、“地下城与勇士”、“DNF”、“官方”之后,根据特征信息所在相关扩展特征信息的权重,乘以特征信息在该扩展特征信息中出现的次数,以此作为特征信息的权重值,则得到各个特征信息及其权重值由\n大到小为:\n[0169] 特征信息 权重值\n[0170] DNF 10.212\n[0171] 游戏 7.254\n[0172] 地下城与勇士 3.798\n[0173] 下载 3.656\n[0174] 官方 1.820\n[0175] 随后,短文本处理装置根据权重值由大到小的顺序选择特征信息,以生成第一短\n文本信息的扩展特征词向量。\n[0176] 需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限\n制,本领域技术人员应该理解,任何对所选择的相关扩展信息进行切分,获得所述多个扩展\n特征信息的实现方式,均应包含在本发明的范围内。\n[0177] 图4为本发明再一优选实施例的用于实施识别短文本类别信息的方法流程图。根\n据本实施例的方法包括步骤S1、步骤S2、步骤S3及步骤S4。其中,步骤S4进一步包括步骤\nS5及步骤S6。\n[0178] 步骤S1至步骤S3已在参照图1、图2或图3所示的实施例中予以详述,并以引用\n的方式包含于此,不再赘述。\n[0179] 本实施例中,步骤S4在步骤S1之前执行。\n[0180] 在步骤S4中,短文本处理装置建立和更新扩展特征向量库,其中,该扩展特征向\n量库包括多个短文本信息及其对应的扩展特征词向量。\n[0181] 其中,所述建立包括构建包括多个短文本信息及其对应的扩展特征词向量的数据\n库;所述更新包括但不限于:1)在扩展特征向量库中添加新的短文本信息及其对应的扩展\n特征词向量;2)在扩展特征向量库中更新已有短文本信息的扩展特征词向量等。其中,所\n述的已扩展短文本信息及其相应的扩展特征词向量可以通过以下任一种方式得到:1)获\n取预存在计算机设备或其他设备中的已扩展短文本信息及其相应的扩展特征词向量;2)\n通过短文本处理装置对待处理短文本信息进行处理后获得的短文本信息及其对应的扩展\n特征词向量等。\n[0182] 根据本实施例的方法进一步包括步骤S5和步骤S6。\n[0183] 在步骤S5中,短文本处理装置基于第二预定规则,根据所述待处理的短文本信\n息,在所述扩展特征向量库中进行查询,以获得一个或多个相关短文本信息及其对应的扩\n展特征词向量。\n[0184] 在步骤S6中,短文本处理装置根据所获得的所述相关短文本信息的扩展特征词\n向量,来获得所述待扩展短文本信息的扩展特征词向量。\n[0185] 例如,第二预定规则中规定在执行步骤S2之前,对于在步骤S1中获取的待处理的\n短文本信息,将其在扩展特征向量库中进行匹配查询,以获得成功匹配的相关扩展信息对\n应的扩展特征向量。则短文本处理装置将待处理短文本信息“DNF游戏下载”在扩展特征向\n量库中进行匹配查询,若扩展特征向量库中包括“DNF游戏下载”,判断匹配成功,并将获取的扩展特征向量库中的相关短文本信息“DNF游戏下载”对应的扩展特征词向量作为待处理\n短文本信息“DNF游戏下载”的扩展特征词向量。如此,可减少重复对同一短文本信息执行\n信息扩展的操作。\n[0186] 优选地,所述第二预定规则包括根据多层级匹配规则,短文本处理装置根据多层\n级匹配规则逐级地对所述待处理短文本信息进行预定处理,其中步骤S5进一步包括步骤\nS51(图未示),步骤S52(图未示)和步骤S53(图未示)。步骤S6中进一步包括步骤S61。\n[0187] 在步骤S51中,短文本处理装置根据所述待处理短文本信息的当前层级匹配规则\n对其进行相应处理。其中,所述当前层级匹配规则规定了在当前匹配层级下,短文本处理装\n置应对待处理短文本信息执行的相应处理,所述相应处理包括但不限于以下任一种:\n[0188] 1)保留所述待处理短文本信息的全部内容的处理;\n[0189] 具体的,短文本处理装置对待处理短文本信息不做任何改变。\n[0190] 2)去除无效信息的处理;\n[0191] 具体地,短文本处理装置通过查询预设的无效信息词典,或者,通过去除短文本信\n息中的虚词,来去除无效信息;或者,当短文本信息中所包含的信息单元本身的权重值低于\n预定无效阈值时,去除该信息单元。\n[0192] 3)根据预设的词汇权重值来提取信息单元的处理;\n[0193] 具体的,短文本处理装置通过将信息单元与预设权重值的词汇进行匹配,来获得\n信息单元的权重值,并根据该权重值提取信息单元。其中,该提取方式包括且不限于:a)\n根据权重值的排序选择信息单元;b)设置阈值,选择词汇权重值满足阈值条件的信息单元\n等。\n[0194] 4)将所述待处理短文本信息与其他短文本信息进行聚合的处理。\n[0195] 其中,所述其他短文本信息均为已扩展短文本信息,所述实现聚合的方式包括但\n不限于:\n[0196] a)根据信息单元相似度进行聚合;\n[0197] 具体的,短文本处理装置查询其他短文本信息所包含的信息单元是否与所述待处\n理短文本信息所包含的信息单元相同或相似,其中,所述相似可通过查询同义词典来进行\n判断,当查询得到其他短文本信息所包含的信息单元与所述待处理短文本信息所包含的信\n息单元相同或相似时,将该其他短文本信息与待处理短文本信息聚合。并将所聚合的其他\n短文本信息作为相关短文本信息。\n[0198] b)根据相关扩展信息进行聚合等。\n[0199] 具体的,当相关扩展信息通过根据短文本信息进行搜索而获得时,短文本处理装\n置查询所获取的待处理短文本的相关扩展信息是否同时为其他短文本信息的相关扩展信\n息,即当根据其他短文本信息进行搜索时,是否能够同样获得该相关扩展信息,若同样能够\n获得该相关扩展信息,则进一步查询当该相关扩展信息属于待处理短文本信息的搜索结果\n及当该相关扩展信息属于其他短文本信息的搜索结果时,均有被用户点击的记录,若均有\n被用户点击的记录,则将该其他短文本信息与待处理短文本信息聚合。并将所聚合的其他\n短文本信息作为相关短文本信息。\n[0200] 需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限\n制,本领域技术人员应该理解,任何短文本处理装置根据所述待处理短文本信息的当前层\n级匹配规则对其进行相应处理的实现方式,均应包含在本发明的范围内。\n[0201] 在步骤S52中,短文本处理装置判断处理后的待处理短文本信息是否能够与一个\n或多个已扩展短文本信息成功匹配。\n[0202] 其中,匹配方式包括且不限于:1)精确匹配;2模糊匹配;3)判断待处理短文本信\n息与已扩展短文本信息的相似度是否达到第二预定阈值等。其中,本领域技术人员应可根\n据实际情况和需求来确定该第二预定阈值。\n[0203] 在步骤S53中,当短文本处理装置判断成功匹配时,将所述成功匹配的一个或多\n个已扩展短文本信息作为所述相关短文本信息,并获取该相关短文本信息对应的扩展特征\n词向量。\n[0204] 其中,步骤S5还进一步包括步骤S54(图未示)和步骤S55(图未示)。\n[0205] 在步骤S54中,当短文本处理装置判断未能成功匹配时,选择下一层级匹配规则\n作为当前层级匹配规则。\n[0206] 例如,多层级匹配规则包括第一层级匹配规则、第二层级匹配规则及第三层级匹\n配规则,其中,第一层级匹配规则中规定的相应处理方式为去除无效信息的处理方式;第二\n层级匹配规则中规定的相应处理方式为根据预设的词汇权重值来提取信息单元的处理方\n式;第三层级匹配规则中规定的处理方式为将所述待处理短文本信息与其他短文本信息进\n行聚合的处理方式。\n[0207] 若待处理短文本信息为“关于DNF游戏的下载网站”,则短文本处理装置首先以第\n一层级匹配规则为当前层级匹配规则,根据此匹配规则,去除待处理短文本信息中的无效\n信息后,获得短文本信息“DNF游戏下载网站”,并将该短文本信息与扩展特征向量库中的已扩展短文本信息进行匹配,若匹配成功,则将匹配成功的已扩展短文本信息作为相关短文\n本信息;若匹配不成功,则选择第二层级匹配规则作为当前层级匹配规则。接着,短文本处\n理装置根据第二层级匹配规则,根据预设的词汇权重值来提取短文本信息的信息单元,其\n中,提取信息单元的方式已在前述步骤S51中予以详述,并以引用的方式包含于此,不再赘\n述,若所提取的信息单元为“DNF”、“游戏”、“下载”,则短文本处理装置将该等信息单元与扩展特征向量库中的已扩展短文本信息进行匹配,若匹配成功,则将匹配成功的已扩展短文\n本信息作为相关短文本信息;若匹配不成功,则选择第三层级匹配规则作为当前层级匹配\n规则。接着,短文本处理装置根据第三层级匹配规则,将所述待处理短文本信息与其他短\n文本信息进行聚合,其中,聚合方式已在前述步骤S51中予以详述,并以引用的方式包含于\n此,不再赘述,随后短文本处理装置将所聚合的其他短文本信息作为相关短文本信息。\n[0208] 又例如,多层级匹配规则包括第一层级匹配规则、第二层级匹配规则、第三层级匹\n配规则及第四层级匹配规则,其中,第一层级匹配规则中规定的相应处理方式为保留所述\n待处理短文本信息的全部内容的处理方式;第二层及匹配规则中规定的相应处理方式为去\n除无效信息的处理方式;第三层级匹配规则中规定的相应处理方式为根据预设的词汇权重\n值来提取信息单元的处理方式;第四层级匹配规则中规定的处理方式为将所述待处理短文\n本信息与其他短文本信息进行聚合的处理方式。\n[0209] 若待处理短文本信息为“关于DNF游戏的下载网站”,则短文本处理装置首先以第\n一层级匹配规则为当前层级匹配规则,根据此匹配规则,直接将待处理短文本信息与扩展\n特征向量库中的已扩展短文本信息进行匹配,如果匹配成功,则将匹配成功的已扩展短文\n本信息作为相关短文本信息;如果匹配不成功,则选择第二层级匹配规则作为当前层级匹\n配规则。接着,短文本处理装置根据第二层级匹配规则,去除待处理短文本信息中的无效信\n息,获得短文本信息“DNF游戏下载网站”,并将该短文本信息与扩展特征向量库中的已扩展短文本信息进行匹配,若匹配成功,则将匹配成功的已扩展短文本信息作为相关短文本信\n息;若匹配不成功,则选择第三层级匹配规则作为当前层级匹配规则。接着,短文本处理装\n置根据第三层级匹配规则,根据预设的词汇权重值来提取短文本信息的信息单元,其中,提\n取信息单元的方式已在前述步骤S51中予以详述,并以引用的方式包含于此,不再赘述,若\n所提取的信息单元为“DNF”、“游戏”、“下载”,则短文本处理装置将该等信息单元与扩展特征向量库中的已扩展短文本信息进行匹配,若匹配成功,则将匹配成功的已扩展短文本信\n息作为相关短文本信息;若匹配不成功,则选择第四层级匹配规则作为当前层级匹配规则。\n接着,短文本处理装置根据第四层级匹配规则,将所述待处理短文本信息与其他短文本信\n息进行聚合,其中,聚合方式已在前述步骤S51中予以详述,并以引用的方式包含于此,不\n再赘述,随后短文本处理装置将所聚合的其他短文本信息作为相关短文本信息。\n[0210] 需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限\n制,本领域技术人员应该理解,任何当短文本处理装置判断未能成功匹配时,选择下一层级\n匹配规则作为当前层级匹配规则的实现方式,均应包含在本发明的范围内。\n[0211] 如此,通过逐级匹配,短文本处理装置获取到相关短文本信息及其对应的扩展特\n征词向量。\n[0212] 在步骤S55中,短文本处理装置根据所选择的当前层级匹配规则对所述待处理短\n文本信息进行相应处理。\n[0213] 具体的,短文本处理装置根据当前层级匹配规则来对待处理短文本信息的进行相\n应处理的方式。已经在步骤S51中予以详述,并以引用的方式包含于此,不再赘述。\n[0214] 根据本实施例的方法,步骤S6进一步包括步骤S61。\n[0215] 在步骤S61中,短文本处理装置根据所述相关短文本信息的扩展特征词向量及当\n前匹配层级来获得所述待处理短文本信息的扩展特征词向量。其中所述获得所述待处理短\n文本信息扩展特征词向量的方法包括但不限于以下至少一种:\n[0216] 1)直接将所述成功匹配的已扩展短文本信息的扩展特征词向量作为所述待处理\n短文本信息的特征词向量;\n[0217] 例如,若预设当当前匹配层级为第二层级时,直接将相关短文本信息的扩展特征\n词向量作为待处理短文本信息的扩展特征词向量,则当短文本处理装置判断当前的匹配层\n级为第二匹配层级时,直接将相关短文本信息的扩展特征词向量作为待处理短文本信息的\n扩展特征词向量。\n[0218] 2)将多个所述成功匹配的已扩展短文本信息的扩展特征词向量进行合并处理后\n所得的扩展特征词向量作为所述待处理短文本信息的特征词向量。\n[0219] 其中所述合并的方式包括但不限于:a)直接合并相同的扩展特征信息;b)根据扩\n展特征信息对应的权重值进行合并等。\n[0220] 例如,对于短文本信息“DNF游戏下载”,若共获得两个相关短文本信息,该两个相关短文本信息对应的扩展特征词向量分别为“官网、免费外挂、外挂、地下城与勇士”和“外挂、地下城与勇士、地下城”,则将该两项扩展特征词向量进行合并,获得待处理短文本信息的扩展特征词向量为“官网、免费外挂、外挂、地下城与勇士、地下城”。\n[0221] 又例如,对于短文本信息“DNF游戏下载”,若共获得两个相关短文本信息,该两个相关短文本信息对应的扩展特征词向量分别为:\n[0222] 第一扩展特征词向量:\n[0223] 官网 2.300327;\n[0224] 免费外挂 2.300327;\n[0225] 外挂 2.165737;\n[0226] 地下城与勇士2.030543。\n[0227] 第二扩展特征词向量:\n[0228] 外挂 2.165737;\n[0229] 地下城与勇士2.030543;\n[0230] 地下城 2.0。\n[0231] 则将第一扩展特征词向量与第二扩展特征词向量合并,并对权重值进行相加后平\n均的处理,则获得待处理短文本信息的扩展特征词向量为:\n[0232] 外挂 2.165737;\n[0233] 地下城与勇士2.030543;\n[0234] 官网 1.150164;\n[0235] 免费外挂 1.150164;\n[0236] 地下城 1.0。\n[0237] 又例如,待处理短文本信息的扩展特征词向量可以在计算得到各个扩展特征信息\n的权重值的基础上,根据权重值排序后选取,或者对权重值设置阈值后选取对应的权重值\n超过该阈值的扩展特征信息。\n[0238] 随后,短文本处理装置根据获得的扩展特征信息生成待处理短文本信息的扩展特\n征词向量,并将该待处理短文本信息及其相应的扩展特征词向量存储于扩展特征向量库\n中。\n[0239] 需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限\n制,本领域技术人员应该理解,任何根据所述相关短文本信息的扩展特征词向量及当前匹\n配层级来获得所述待处理短文本信息的扩展特征词向量的实现方式,均应包含在本发明的\n范围内。\n[0240] 根据本实施例的方法,能够较好地对短文本信息进行扩展,通用性较强,并且便于\n维护。特别是对于一些难以获得具有较好相关性的相关扩展信息的短文本信息,通过本实\n施例提供的方法,能够快速获得针对性及可识别性较强的扩展特征信息。\n[0241] 图5示意出了本发明另一个方面的用于对待处理的短文本信息进行扩展的短文\n本处理装置的结构示意图。根据本实施例的短文本处理装置包括第一获取装置1、第二获取\n装置2和第一扩展装置3。\n[0242] 第一获取装置1获取待处理的短文本信息。其中,第一获取装置1获取该待处理\n短文本信息的方法包括但不限于:1)实时获取用户直接输入或经由其他设备或装置输入\n的输入序列,或者,实时获取计算机设备当前需要处理的信息;2)获取预存储在所述计算\n机设备或其他设备中的需要进行扩展处理的短文本信息。\n[0243] 第二获取装置2基于该短文本信息来获取与其相关的一个或多个相关扩展信息。\n其中,所述相关扩展信息包括但不限于:1)文本标题信息;2)文本摘要信息;3)网页的全\n部文本内容信息等。\n[0244] 所述获取一个或者多个相关扩展信息的方式包括但不限于:\n[0245] 1)获取基于短文本信息进行搜索而得到的一个或多个相关扩展信息;\n[0246] 例如,第一获取装置1获取用户输入的短文本“DNF游戏下载”(以下称为第一短文\n本信息),第二获取装置2基于该短文本在网络上或本机中进行搜索,来获得搜索结果项,\n并根据网页标识符等来对搜索结果项进行识别,以获得以下与第一短文本信息相关的相关\n扩展信息。\n[0247] 第一相关扩展信息:“游戏下载地下城与勇士DNF官方网站腾讯游戏、DNF地下城\n与勇士52PK站提供最全最新DNF视频、DNF下载等内容,是国内最大的地下城与勇士DNF官\n网合作网站之一。”其中,短文本处理装置分析得到其为内容类别的相关扩展信息。\n[0248] 第二相关扩展信息:“DNF外挂天迹社区游戏。”其中,短文本处理装置分析得到其为标题类别的相关扩展信息。\n[0249] 第三相关扩展信息:“《地下城与勇士DNF》最新客户端下载进入专区文件大小\n1.44GB文件类别客户端游戏语言简体中文官方网站点击进入游戏专区点击进入游戏交\n流。”其中,短文本处理装置分析得到其为内容类别的相关扩展信息。\n[0250] 2)获取预存储的与该短文本信息相关的相关扩展信息等;其中,该预存储的相关\n扩展信息可存储在所述计算机设备中,或存储在与该计算机设备物理分离但通信连接的设\n备中;\n[0251] 例如,短文本处理装置中已经预存储了与第一短文本信息相关的第一相关扩展信\n息,则在第一获取装置1获取第一短文本信息之后,第二获取装置2在预存的相关扩展信息\n中获取与第一短文本信息相关的第一相关扩展信息。\n[0252] 第一扩展装置3基于第一预定规则,根据所述短文本信息,由所述一个或多个相\n关扩展信息来获得所述短文本信息的扩展特征词向量;其中,所述扩展特征词向量包括多\n个扩展特征信息,所述每个扩展特征信息与所述短文本信息不完全相同。\n[0253] 所述扩展特征信息包括但不限于:1)与短文本信息相关的特征信息;2)该特征信\n息所在的相关扩展信息的发布时间;3)该特征信息所在的相关扩展信息的用户点击数;4)\n该特征信息所在的相关扩展信息与短文本的相关度等。\n[0254] 其中,第一预定规则中包含参考以下至少一项因素,来获得扩展特征词向量的规\n则:\n[0255] 1)所述相关扩展信息与所述短文本信息的相关度;\n[0256] 2)所述相关扩展信息的类别;\n[0257] 3)所述短文本信息在所述相关扩展信息中的分布状态;\n[0258] 4)由所述相关扩展信息切分得到的特征信息与所述短文本信息的相似度。\n[0259] 以下对第一扩展装置3根据上述每项信息及其组合来获得扩展特征词向量的方\n式予以详述:\n[0260] 1)所述相关扩展信息与所述短文本信息的相关度;\n[0261] 所述相关度的确定方式包括但不限于:\n[0262] a)根据人工预设的相关扩展信息与短文本信息的相关度来确定;\n[0263] b)根据相关扩展信息所包含的信息单元数量确定相关度;其中,所述信息单元通\n过切分短文本信息而得到;\n[0264] 具体地,相关扩展信息中信息单元重复出现的累计数量越多,则该相关扩展与该\n短文本的相关度越高;第一扩展装置3按照由相关扩展信息切分得到的特征信息所在的相\n关扩展信息与该短文本信息的相关度,来对特征信息进行排序,并根据特征信息排序结果\n来选择特征信息;\n[0265] 例如,对于短文本信息“DNF游戏下载”,第一扩展装置3对其切分以获得三个信息\n单元“DNF”、“游戏”、“下载”,则第一扩展装置3在与该短文本信息对应的相关扩展信息中分别统计每个相关扩展信息中该三个信息单元重复出现的累计数量。若与短文本信息“DNF\n游戏下载”相关的所有相关扩展信息包括第一相关扩展信息、第二相关扩展信息及第三相\n关扩展信息,短文本处理装置统计得到第一相关扩展信息中包含三个信息单元“DNF”、“游戏”、“下载”,三个信息单元累计出现的总次数为9,第二相关扩展信息中包含两个信息单元“DNF”、“游戏”,其累计出现的总次数为2,第三相关扩展信息中包含三个信息单元“DNF”、“游戏”、“下载”,三个信息单元累计出现的总次数为5,则第一扩展装置3判断相关扩展信息与短文本信息的相关度从高到低依次为第一相关扩展信息、第三相关扩展信息和第二相关\n信息。随后,短文本处理装置对第一至第三相关扩展信息进行切分,以获得特征信息,例如,若第二相关扩展信息为“DNF外挂天迹社区游戏”,则由第二相关扩展信息切分所得的特征\n信息包括“DNF”、“外挂”、“天际”、“社区”、“游戏”等。短文本信息按照特征信息所在的相关扩展信息与短文本信息的相关度由高至低,来对特征信息进行排序。当相关扩展信息相关\n度相同时,对特征信息进行随机排序。第一扩展装置3根据排序结果来选择特征信息以生\n成扩展特征词向量,例如,选择排序结果为前N位的特征信息以生成扩展特征词向量等。其\n中,本领域技术人员应可根据实际情况和需求来选择并设定N的值。\n[0266] c)当所述相关扩展信息为搜索结果项时,根据搜索结果的排序来确定相关度等;\n[0267] 具体地,搜索结果排序越靠前的相关扩展信息,其相关度越高。\n[0268] 随后,第一扩展装置3对短文本信息对应的相关扩展信息进行切分以获得特征信\n息,并根据特征信息所在的相关扩展信息与短文本信息的相关度由高至低来对特征信息进\n行排序,并根据排序结果来选择特征信息以生成扩展特征词向量。\n[0269] 2)所述相关扩展信息的类别;\n[0270] 所述相关扩展信息的类别包括但不限于:a)标题;b)内容等。需要说明的是,该类\n别仅为更好地说明本发明的例举,本领域技术人员应该理解,相关扩展信息的分类不以“标\n题”和“内容”为限,例如,还可包括“广告”、“提示信息”等等。\n[0271] 具体地,第一扩展装置3根据预设的类别重要度来确定相关扩展信息与短文本信\n息的相关度,并根据相关扩展信息与短文本信息的相关度来选择特征信息以生成扩展特征\n词向量。\n[0272] 例如,预设的类别重要度中,“标题”的重要度高于“内容”的重要度,则第一扩展装置3预设首先对标题类别的相关扩展信息进行分割,以获得特征信息。若由标题类别的相\n关扩展信息中获得的特征信息达到第一预定阈值,则根据由标题类别的相关扩展信息中获\n得的特征信息来生成扩展特征词向量;若由标题类别的相关扩展信息中获得的特征信息未\n达到第一预定阈值,则继续对内容类别的相关扩展信息进行分割,直至特征信息的数量达\n到第一预定阈值,随后,根据由标题及内容类别的相关扩展信息中获得的特征信息来生成\n扩展特征词向量。其中,本领域技术人员应可根据实际情况和需求来设定该第一预定阈值。\n[0273] 3)所述短文本信息包含的信息单元在所述相关扩展信息中的分布状态;\n[0274] 所述短文本信息在所述相关扩展信息中的分布状态包括但不限于:\n[0275] a)短文本信息中的信息单元在相关扩展信息中出现的频次;\n[0276] 具体地,信息单元出现的频次越高,相关扩展信息的重要性越高。\n[0277] 例如,对于短文本信息“DNF游戏下载”,其包含三个信息单元“DNF”、“游戏”、“下载”,第一扩展装置3统计得到上述三个信息单元在与短文本信息相关的第一、第二及第三\n相关扩展信息中出现的频次分别为:7,6,3,则短文本信息判断上述三者与短文本信息相关度由高至低的顺序依次为第一相关扩展信息、第二相关扩展信息、第三相关扩展信息。则第\n一扩展装置3对短文本信息对应的相关扩展信息进行切分以获得特征信息,并根据特征信\n息所在的相关扩展信息与短文本信息的相关度由高至低来对特征信息进行排序,并根据排\n序结果来选择特征信息以生成扩展特征词向量。\n[0278] b)短文本信息包含的信息单元在相关扩展信息中所处的位置;\n[0279] 具体地,信息单元在相关扩展信息中某一位置出现的次数越多,该位置的相关扩\n展信息与短文本信息的相关度越高。\n[0280] 例如,若短文本处理装置根据段落分隔符,例如“↓”等,检测到与短文本信息相关的两个相关扩展信息中共包含三个段落,且短文本信息包含的信息单元在第一个段落中出\n现四次,在第二个段落中出现五次,在第三个段落中出现一次,则第一扩展装置3判断与短\n文本信息的相关度由高至低的顺序为第二个段落、第一个段落、第三个段落。随后,短文本\n处理装置对各个段落进行分割,以获得特征信息,并根据特征信息所在的相关扩展信息与\n短文本信息的相关度由高至低来对特征信息进行排序,并根据排序结果来选择特征信息以\n生成扩展特征词向量。\n[0281] 4)由所述相关扩展信息切分得到的特征信息与所述短文本信息的相似度。\n[0282] 具体地,短文本处理装置对相关扩展信息进行切分,以获得特征信息。第一扩展装\n置3根据特征信息与短文本信息的相似度由高至低来对特征信息进行排序,并根据排序结\n果来选择特征信息以生成扩展特征词向量。\n[0283] 其中,确定特征信息与短文本信息的相似度的方式包括但不限于:a)根据特征信\n息与短文本信息的编辑距离来确定;b)根据特征信息与短文本信息的语义近似度来确定\n等。\n[0284] 具体地,特征信息与短文本信息的编辑距离越短,两者的相似度越高;特征信息与\n短文本信息的语义近似度越高,两者的相似度越高。其中,语义近似度可以通过多种方法获\n得,例如,根据预设的同义词典来获得等。\n[0285] 需要说明的是,短文本处理装置还可结合上述四种因素中的任意若干种,来获得\n所述短文本信息的扩展特征词向量。例如,第一扩展装置3根据相关扩展信息的类别及相\n关扩展信息与短文本信息的相关度来获得扩展特征词向量。具体地,预设相关扩展信息的\n类别重要性高于相关扩展信息与短文本信息的相关度。则第一扩展装置3先根据相关扩展\n信息的类别来对相关扩展信息进行排序,获得“标题”类别靠前,“内容”类别靠后的相关扩展信息排序结果,随后,第一扩展装置3再在“标题”及“内容”类别的相关扩展信息中,分别根据相关扩展信息与短文本信息的相关度由高至低进行排序。例如,若短文本信息对应\n第一至第四相关扩展信息,其中,第一及第二相关扩展信息类别为“标题”,第三及第四相关扩展信息类别为“正文”,则短文本处理装置获得的根据类别排序的排序结果为第一相关扩\n展信息、第二相关扩展信息、第三相关扩展信息、第四相关扩展信息。随后,第一扩展装置3获得第一相关扩展信息与短文本信息的相似度高于第二相关扩展信息,第四相关扩展信息\n与短文本信息的相似度高于第三相关扩展信息,则短文本处理装置根据相关扩展信息与短\n文本信息的相似度进行再次排序,获得排序结果为第一相关扩展信息、第二相关扩展信息、\n第四相关扩展信息、第三相关扩展信息。则短文本处理装置对第一至第四相关扩展信息进\n行切分以获得特征信息,并根据特征信息所在的相关扩展信息与短文本信息的相关度由高\n至低来对特征信息进行排序,并根据排序结果来选择特征信息以生成扩展特征词向量。\n[0286] 需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发\n明的限制,本领域技术人员应该理解,任何基于所述第一预定规则,并根据所述短文本信\n息,由所述一个或多个相关扩展信息来获得所述短文本信息的扩展特征词向量的实现方\n式,均应包含在本发明的范围内。\n[0287] 优选的,在上述过程中,第一预定规则还可以参考以下因素,来获得短文本信息的\n扩展特征词向量;或者在已经生成了扩展特征词向量以后,短文本处理装置根据以下因素,\n并基于第一预定规则来对已有的扩展特征词向量进行调整。\n[0288] 1)由所述相关扩展信息切分得到的特征信息的分布状态;\n[0289] 所述特征信息的分布状态包括但不限于:\n[0290] a)特征信息在与所有待处理短文本信息相关的相关扩展信息中出现的频次;\n[0291] 在计算机设备或其他设备中存储有与所有待处理短文本信息及其对应的相关扩\n展信息,为简洁起见,简称该与所有待处理短文本信息及其对应的相关扩展信息为全局信\n息,短文本处理装置根据特征信息在全局信息中出现的频次,来对特征信息进行排序,或调\n整已排序的特征信息的位置。\n[0292] 具体地,特征信息在全局数据中出现的频次越高,其排序位置越靠后。\n[0293] 例如,对于特征信息“dnf”及“游戏”,第一扩展装置3检测到“dnf”在全局数据中出现10235次,“游戏”在全局数据中出现50349次,则第一扩展装置3将“dnf”排在“游\n戏”之前的位置。\n[0294] 又例如,特征信息“dnf”及“游戏”均包含在标题类别的相关扩展信息中,第一扩展装置3在根据标题类别进行排序的过程中,随机将“游戏”排在“dnf”之前的位置,并根\n据该排序结果生成了扩展特征词向量,则在扩展特征词向量中,“游戏”相对“dnf”的位置更靠前。随后,短文本处理装置检测到“dnf”在全局数据中出现10235次,“游戏”在全局数据中出现50349次,则第一扩展装置3将“dnf”调整至“游戏”之前。\n[0295] b)特征信息在所有待处理短文本信息中出现的频次等;\n[0296] 例如,第一扩展装置3统计第一短文本信息的相关扩展信息切分得到的特征信\n息“DNF”、“游戏”、“下载”在所有待处理短文本信息中的出现频次,其频次由低到高为:“下载”、“游戏”、“DNF”,则第一扩展装置3根据频次由低到高来对特征信息进行排序,以选择特征信息来生成扩展特征词向量。\n[0297] 2)所述相关扩展信息切分得到的特征信息的语义特征。\n[0298] 所述特征信息的语义特征通过以下至少一种因素来进行评价:a)特征信息的词\n性;b)特征信息对应的表意能力;c)该特征信息是否有效等。\n[0299] 具体的,词性的重要性越高,语义特征越强;表意能力等级越高,语义特征越强;\n有效的特征信息语义特征较强,无效的特征信息语义特征较弱。其中,词性的重要性、表意\n能力等级高低及无效特征信息,均由预设得到。\n[0300] 若预设词性的重要性为名词大于动词,表意能力等级由高到低分别为第一级、第\n二级和第三级。例如,对于由第一短文本信息的相关扩展信息切分得到的特征信息“DNF”、“游戏”、“下载”,第一扩展装置3根据语义分析判断“DNF”及“游戏”为名词,“下载”为动词,短文本处理装置查询表意能力词表得到“DNF”的表意能力为第一级,“游戏”的表意能力为第二级,“下载”的表意能力为第三级,并且,短文本处理装置未在无效信息词表中查询到上述三者中的任一者,则第一扩展装置3先根据词性、再根据表意能力,对特征信息进行排序\n的结果为“DNF”、“游戏”、“下载”。\n[0301] 需要说明的是,短文本处理装置还可结合上述两种因素,来获得或调整所述短文\n本信息的扩展特征词向量,例如,先对特征信息根据分布状态进行排序,对处于相同排名的\n特征信息的语义特征进行分析,并根据语义特征强弱进行排序,最后获得总排序结果,第一\n扩展装置3根据总排序结果,选择特征信息,生成扩展特征词向量。\n[0302] 根据本发明的方案所得的短文本扩展信息能够在多种应用中辅助相应设备进行\n短文本信息处理操作,例如,在搜索环境中辅助搜索引擎判断短文本信息间的相关性或短\n文本信息类别,并进一步根据所得的短文本信息相关性或类别来进行其他操作,以使所提\n供的信息更符合用户所希望搜索的内容;或者,在本机或网络输入法中用于辅助输入法处\n理装置根据用户输入的输入序列来选择提供给用户的输入法候选项;或者,在B2B/B2C网\n站中用于辅助网站相应处理设备判断用户的实际需要的商品等。本领域技术人员应该理\n解,本发明方案的应用环境不以上述举例为限。\n[0303] 作为本发明的优选方案之一,所述扩展特征词向量还包括分别与所述多个扩展特\n征信息相对应的多个权重值,其中,所述第一扩展装置3还包括权重获取装置(图未示),权\n重获取装置基于所述第一预定规则,并根据所述短文本信息获取所述多个扩展特征信息的\n权重值。\n[0304] 具体的,权重值的获取参考以下至少一项因素:\n[0305] 1)所述相关扩展信息与所述短文本信息的相关度;\n[0306] 具体的,相关扩展信息与所述短文本信息的相关度越高,该相关扩展信息中包含\n的扩展特征信息权重值越大。其中,相关度的确定方式包括但不限于:a)根据人工预设的\n相关扩展信息与短文本信息的相关度来确定;b)根据相关扩展信息所包含的由切分短文\n本信息所得的信息单元数量确定相关度;c)当所述相关扩展信息为搜索结果项时,根据搜\n索结果的排序来确定相关度等。\n[0307] 例如,第一预定规则中预设相关扩展信息的初始权重值为0,若一个相关扩展信息\n出现其中一项信息单元,则其权重值增加1。则对于短文本信息“DNF游戏下载”,其对应的\n相关扩展信息为第一至第三相关扩展信息。权重获取装置设置第一至第三相关扩展信息的\n初始权重值为0,并切分短文本信息以获得信息单元“DNF”、“游戏”、“下载”,权重获取装置基于第一预定规则,并检测各个相关扩展信息中信息单元的出现次数来调整权重值,获得\n第一至第三相关扩展信息中包含的特征信息的权重值依次为:9、2、5。\n[0308] 随后,短文本处理装置根据权重值由大到小的顺序,选择特征信息以作为扩展特\n征信息,并根据扩展特征信息及其对应的权重值生成扩展特征词向量。\n[0309] 2)所述相关扩展信息的类别;\n[0310] 所述相关扩展信息的类别包括但不限于:a)标题;b)内容等。\n[0311] 具体地,预设各种类别的相关扩展信息所包含的特征信息的权重值不同。\n[0312] 例如,预设标题类别的相关扩展信息包含的特征信息权重值为10,内容类别的相\n关扩展信息包含的特征信息权重值为5。对于短文本信息“DNF游戏下载”,其对应的相关扩\n展信息为第一至第三相关扩展信息。其中,第一相关扩展信息的类别为“内容”、第二相关扩展信息的类别为“标题”、第三相关扩展信息的类别为“内容”。则权重获取装置判断第一至第三相关扩展信息包含的特征信息的权重值依次为:5、10、5。随后,短文本处理装置根据权重值由大到小的顺序,选择特征信息以作为扩展特征信息,并根据扩展特征信息及其对应\n的权重值生成扩展特征词向量。\n[0313] 3)所述短文本信息在所述相关扩展信息中的分布状态;\n[0314] 其中,所述分布状态包括但不限于:\n[0315] a)短文本信息中的信息单元在相关扩展信息中出现的频次;\n[0316] 具体的,信息单元在相关扩展信息中出现的频次越高,该相关扩展信息所包含的\n特征信息的权重值越大。\n[0317] 例如,若第一预定规则中预设将信息单元在相关扩展信息中出现的频次作为该相\n关扩展信息的权重值。则对于短文本信息“DNF游戏下载”,其包括信息单元“DNF”、“游戏”、“下载”,短文本处理装置统计得到上述三个信息单元在与短文本信息相关的第一、第二及\n第三相关扩展信息中出现的频次分别为:7,6,3,则权重获取装置获得第一、第二及第三相关扩展信息所包含的特征信息的权重值分别为7,6,3。随后,短文本处理装置根据权重值由大到小的顺序,选择特征信息以作为扩展特征信息,并根据扩展特征信息及其对应的权重\n值生成扩展特征词向量。\n[0318] b)短文本信息包含的信息单元在相关扩展信息中所处的位置等;\n[0319] 具体地,信息单元在相关扩展信息中某一位置出现的次数越多,该位置的相关扩\n展信息所包含的特征信息的权重值越高。\n[0320] 例如,若短文本处理装置根据段落分隔符,例如“↓”等,检测到与短文本信息相关的两个相关扩展信息中共包含三个段落,且短文本信息包含的信息单元在第一个段落中出\n现四次,在第二个段落中出现五次,在第三个段落中出现一次,则权重获取装置获得第一个\n段落、第二个段落及第三个段落所包含的特征信息的权重值依次为4,5,1。\n[0321] 随后,短文本处理装置根据权重值由大到小的顺序,选择特征信息以作为扩展特\n征信息,并根据扩展特征信息及其对应的权重值生成扩展特征词向量。\n[0322] 4)由所述相关扩展信息切分得到的特征信息与所述短文本信息的相似度等;\n[0323] 具体的,特征信息与所述短文本信息的相似度越高,该特征信息的权重值越大。\n[0324] 例如,权重获取装置将一个特征信息与短文本信息的相似度直接作为该特征信息\n的权重值;又例如,根据一个特征信息与短文本信息的相似度所处的等级,来确定该特征信\n息的权重值等。\n[0325] 其中,确定特征信息与短文本信息的相似度的方式包括但不限于:a)根据特征信\n息与短文本信息的编辑距离来确定;b)根据特征信息与短文本信息的语义近似度来确定\n等。\n[0326] 随后,短文本处理装置根据权重值由大到小的顺序,选择特征信息以作为扩展特\n征信息,并根据扩展特征信息及其对应的权重值生成扩展特征词向量。\n[0327] 5)由所述相关扩展信息切分得到的特征信息的分布状态;\n[0328] 所述特征信息的分布状态包括但不限于:a)特征信息在与所有待处理短文本信\n息相关的相关扩展信息中出现的频次;b)特征信息在所有待处理短文本信息中出现的频\n次等;\n[0329] 具体的,上述两个频次越低,特征信息的权重值越大。\n[0330] 例如,第一预定规则中预设特征信息的初始权重值为1000,特征信息每检测到一\n次,其权重减少0.1。对于特征信息“DNF”,短文本处理装置检测到其出现频次为2560,则获得其权重值为1000-2560*0.1=744。\n[0331] 又例如,权重获取装置将特征信息在所有待处理短文本信息中出现的频次的倒数\n直接作为该扩展特征信息的权重值;\n[0332] 随后,短文本处理装置根据权重值由大到小的顺序,选择特征信息以作为扩展特\n征信息,并根据扩展特征信息及其对应的权重值生成扩展特征词向量。\n[0333] 6)由所述相关扩展信息切分得到的特征信息的语义特征等;\n[0334] 具体的,特征信息的语义特征越强,其权重值越大。\n[0335] 所述特征信息的语义特征通过以下至少一种因素来进行评价:a)特征信息的词\n性;b)特征信息对应的表意能力;c)该特征信息是否有效等。\n[0336] 例如,若第一预定规则中预设名词的权重为3,动词的权重值为2,表意能力为第\n一级的特征信息权重为3,表意能力为第二级的特征信息权重为2,表意能力为第三级的特\n征信息权重为1,无效信息的权重值为零,有效信息的权重值为1,并根据(词性权重值+表\n意能力权重值)*无效信息权重值的方式,来获得特征信息的语义特征权重值。例如,对于\n特征信息“DNF”,短文本处理装置判断其为名词,查询表意能力词表得到其表意能力为第一级,并且,短文本处理装置未在无效信息词表中查询到“DNF”,即“DNF”为有效信息,则权重获取装置获得“DNF”的语义特征权重值=(3+3)*1=6。需要说明的是,上述权重值的预定\n及计算方式仅为例举,而并非对本发明的限制。\n[0337] 随后,短文本处理装置根据权重值由大到小的顺序,选择特征信息以作为扩展特\n征信息,并根据扩展特征信息及其对应的权重值生成扩展特征词向量。\n[0338] 需要说明的是,短文本处理装置还可以结合上述六种因素中的任意若干种来获取\n权重值,以生成所述短文本信息的扩展特征词向量。\n[0339] 例如,权重获取装置首先获取一个特征信息根据上述六种因素而分别获得的六个\n权重值,然后,获取该六个权重值的平均值以作为该特征信息的平均值,或者,对该六个权\n重值,分别赋予权值,将六个权值分别与六个权重值相乘,并获取六个相乘结果的平均值以\n作为该特征信息的权重值等。\n[0340] 需要说明的是,权重获取装置确定特征信息或者信息单元的权重值后,还可以通\n过设定权重值的阈值的方式,选择用于生成扩展特征词向量的特征信息或者信息单元。\n[0341] 需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发\n明的限制,本领域技术人员应该理解,任何基于所述第一预定规则,并根据所述短文本信\n息,由所述一个或多个相关扩展信息来获得所述短文本信息的扩展特征词向量的实现方\n式,均应包含在本发明的范围内。\n[0342] 作为本发明的优选方案之一,在所述第二获取装置2中还包括搜索获取装置21。\n[0343] 作为本发明的优选方案之一,分词装置11和检索信息生成装置12在所述第二获\n取装置2进行操作之前执行操作。\n[0344] 其中,分词装置11对所述短文本信息进行切词,获得信息单元;\n[0345] 检索信息生成装置12根据语义分析及/或预设的所述信息单元的重要度,选择信\n息单元来生成检索信息。\n[0346] 其中,所述搜索获取装置21还获取基于检索信息进行搜索而得到的相关扩展信\n息。\n[0347] 其中,所述语义分析包括对信息单元的词性分析,例如,判断信息单元为实词或虚\n词等。信息单元的重要度通过查询预设的单元重要度信息来获取。\n[0348] 例如,分词装置对短文本信息“关于DNF的游戏下载”进行切词,获得信息单元“关于”、“DNF”、“的”、“游戏”、“下载”、“网站”。短文本处理装置判断得到“DNF”、“游戏”、“下载”、“网站”为实词,“关于”、“的”为虚词,则检索信息生成装置选择实词信息单元,即“DNF”、“游戏”、“下载”、“网站”来生成检索信息。\n[0349] 又例如,单元重要度信息中包括“关于”、“的”为省略单元的信息,则检索信息生成装置查询单元重要度信息后,去除信息单元“关于”、“的”,保留信息单元“DNF”、“游戏”、“下载”、“网站”来生成检索信息。\n[0350] 需要说明的是,本领域技术人员应该理解,上述举例仅为更好地说明本发明的技\n术方案,而非对本发明所做的限制,任何根据所述第一预定规则,获取待处理短文本的扩展\n特征词向量的方案,均应包含在本发明的范围内,并以引用的方式包含于此。\n[0351] 根据本实施例,能够较好地对短文本信息进行扩展,通用性较强,并且便于维护。\n特别是当相关扩展信息为通过对短文本信息进行搜索而获得的情况下,对于搜索频率较高\n的短文本信息,能够利用搜索特性,获得相关性较好的相关扩展信息,进一步提高了所得扩\n展特征信息的针对性及可识别性。\n[0352] 图6为本发明一个优选实施例的用于对待处理的短文本信息进行扩展的短文本\n处理装置结构示意图。根据本实施例的短文本处理装置,包括第一获取装置1、第二获取装\n置2、第一扩展装置3。其中第一扩展装置3中,还包括第一分析装置31和第一子扩展装置\n32。\n[0353] 第一获取装置1及第二获取装置2已在参照图5所示的实施例中予以详述,并以\n引用的方式包含于此,不再赘述。\n[0354] 第一分析装置31对所述相关扩展信息进行切分,获得多个特征信息。\n[0355] 例如,短文本处理装置根据第一短文本信息获得的所有相关扩展信息为第一至第\n三相关扩展信息,对第一至第三相关扩展信息进行切分,并去除相关扩展信息中的无效信\n息后,获得的特征信息包括“DNF”、“游戏”、“地下城与勇士”、“下载”、“网站”、“进入”、“官方”、“最新”、“客户端”、“专区”、“文件”、“点击”、“腾讯”。其中,可通过查询预设的无效信息词典来,或者,通过去除虚词,来去除无效信息;或者,当短文本信息中所包含的信息单元本身的权重值低于预定无效阈值时,去除该信息单元。\n[0356] 第一子扩展装置32基于所述第一预定规则,并根据所述短文本信息,由所述多个\n特征信息中选择所述多个扩展特征信息。\n[0357] 例如,第二获取装置2根据第一短文本信息获得的所有相关扩展信息为第一至第\n三相关扩展信息,第一子扩展装置32对第一至第三相关扩展信息进行切分,并合并相同的\n特征信息,获得特征信息以及其合并次数具体如下:\n[0358] 特征信息 合并次数\n[0359] DNF 7\n[0360] 游戏 6\n[0361] 地下城与勇士 4\n[0362] 下载 3\n[0363] 网站 3\n[0364] 进入 3\n[0365] 官方 2\n[0366] 最新 2\n[0367] 客户端 2\n[0368] 专区 2\n[0369] 文件 2\n[0370] 点击 2\n[0371] 腾讯 1\n[0372] …… ……\n[0373] 第一子扩展装置32可根据合并次数,对上述特征信息进行由高到低的排序,并根\n据排序结果选择特征信息来生成扩展特征词向量。优选的,选择前N位的特征信息来生成\n扩展特征词向量,其中,本领域技术人员应可根据实际情况和需求来选择并设定N的值。\n[0374] 又例如,对于上述特征信息,第一子扩展装置32基于第一预定规则来进行排序,\n并根据排序结果来选择特征信息,以生成扩展特征词向量。其中,基于第一预定规则来对特\n征信息进行排序的方式,已在参照图5所示实施例中予以详述,并以引用的方式包含于此,\n不再赘述。\n[0375] 又例如,第一子扩展装置32切分相关扩展信息获得特征信息后,就第一预定规\n则,计算与特征信息相应的权重值,并根据权重值来选择特征信息,以生成第一短文本信息\n的扩展特征词向量。其中,基于第一预定规则计算权重值的方法已在参照图1所示的实施\n例中予以详述,并以引用的方式包含于此,不再赘述。\n[0376] 需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限\n制,本领域技术人员应该理解,任何基于所述第一预定规则,并根据所述短文本信息,由所\n述多个特征信息中选择所述多个扩展特征信息的实现方式,均应包含在本发明的范围内。\n[0377] 图7为本发明另一个优选实施例的用于对待处理的短文本信息进行扩展的短文\n本处理装置结构示意图。根据本实施例的短文本处理装置,包括第一获取装置1、第二获取\n装置2、第一扩展装置3。其中第一扩展装置3还包括第二分析装置33和第二子扩展装置\n34。\n[0378] 第一获取装置1及第二获取装置2已在参照图5所示的实施例中予以详述,并以\n引用的方式包含于此,不再赘述。\n[0379] 第二分析装置33基于所述第一预定规则,并根据所述短文本信息,由多个所述相\n关扩展信息中选择一个或多个相关扩展信息。\n[0380] 其中,基于第一预定规则来由多个所述相关扩展信息中选择一个或多个相关扩展\n信息的方式已经在参照图1的实施例中予以说明,并以引用的方式于此,不再赘述。\n[0381] 第二子扩展装置34对所选择的相关扩展信息进行切分,获得所述多个扩展特征\n信息。\n[0382] 例如,第二分析装置33选择第一相关扩展信息,第二子扩展装置34对其进行切分\n并去除无效信息,获得的多个特征信息包括:“游戏”、“下载”、“地下城与勇士”、“DNF”、“官方”。随后,短文本处理装置根据获得的特征信息,生成第一短文本信息的扩展特征词向量。\n[0383] 又例如,短文本处理装置获得多个特征信息:“游戏”、“下载”、“地下城与勇士”、“DNF”、“官方”之后,根据特征信息所在相关扩展特征信息的权重,乘以特征信息在该扩展特征信息中出现的次数,以此作为特征信息的权重值,则得到各个特征信息及其权重值由\n大到小为:\n[0384] 特征信息 权重值\n[0385] DNF 10.212\n[0386] 游戏 7.254\n[0387] 地下城与勇士 3.798\n[0388] 下载 3.656\n[0389] 官方 1.820\n[0390] 随后,第二子扩展装置34根据权重值由大到小的顺序选择特征信息,以生成第一\n短文本信息的扩展特征词向量。\n[0391] 要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,\n本领域技术人员应该理解,任何对所选择的相关扩展信息进行切分,获得所述多个扩展特\n征信息的实现方式,均应包含在本发明的范围内。\n[0392] 图8为本发明再一优选实施例的用于对待处理的短文本信息进行扩展的短文本\n处理装置结构示意图。根据本实施例的短文本处理装置,包括第一获取装置1、第二获取装\n置2、第一扩展装置3和扩展特征向量库9。其中第一获取装置1还包括更新装置4。\n[0393] 第一获取装置1、第二获取装置2、第一扩展装置3已在参照图5、图6或图7所示\n的实施例中予以详述,并以引用的方式包含于此,不再赘述。\n[0394] 更新装置4建立和更新扩展特征向量库9,其中,该扩展特征向量库9包括多个短\n文本信息及其对应的扩展特征词向量。\n[0395] 其中,所述建立包括构建包括多个短文本信息及其对应的扩展特征词向量的数据\n库;所述更新包括但不限于:1)在扩展特征向量库9中添加新的短文本信息及其对应的扩\n展特征词向量;2)在扩展特征向量库9中更新已有短文本信息的扩展特征词向量等。其\n中,所述的已扩展短文本信息及其相应的扩展特征词向量可以通过以下任一种方式得到:\n1)获取预存在计算机设备或其他设备中的已扩展短文本信息及其相应的扩展特征词向量;\n2)通过短文本处理装置对待处理短文本信息进行处理后获得的短文本信息及其对应的扩\n展特征词向量等。\n[0396] 其中,短文本处理装置进一步包括查询装置5和第二扩展装置6。\n[0397] 查询装置5根据所述待处理的短文本信息,在所述扩展特征向量库9中进行查询,\n以获得一个或多个相关短文本信息及其对应的扩展特征词向量。\n[0398] 第二扩展装置6根据所获得的所述相关短文本信息的扩展特征词向量,来获得所\n述待扩展短文本信息的扩展特征词向量。\n[0399] 例如,第二预定规则中规定在第二扩展装置6执行操作之前,对于在第一获取装\n置1获取的待处理的短文本信息,查询装置5将其在扩展特征向量库9中进行匹配查询,以\n获得成功匹配的相关扩展信息对应的扩展特征向量。查询装置5将待处理短文本信息“DNF\n游戏下载”在扩展特征向量库9中进行匹配查询,若扩展特征向量库9中包括“DNF游戏下\n载”,判断匹配成功,则第二扩展装置6将获取的扩展特征向量库中的相关短文本信息“DNF\n游戏下载”对应的扩展特征词向量作为待处理短文本信息“DNF游戏下载”的扩展特征词向\n量。如此,可减少重复对同一短文本信息执行信息扩展的操作。\n[0400] 优选地,所述第二预定规则包括根据多层级匹配规则,短文本处理装置根据多层\n级匹配规则逐级地对所述待处理短文本信息进行预定处理,其中查询装置5进一步包括处\n理装置(图未示),判断装置(图未示)和第三获取装置(图未示)。第二扩展装置6中进\n一步包括第三子扩展装置(图未示)。\n[0401] 处理装置根据所述待处理短文本信息的当前层级匹配规则对其进行相应处理。其\n中,所述当前层级匹配规则规定了在当前匹配层级下,短文本处理装置应对待处理短文本\n信息执行的相应处理,所述相应处理包括但不限于以下任一种:\n[0402] 1)保留所述待处理短文本信息的全部内容的处理;\n[0403] 具体的,处理装置对待处理短文本信息不做任何改变。\n[0404] 2)去除无效信息的处理;\n[0405] 具体地,处理装置通过查询预设的无效信息词典,或者,通过去除短文本信息中的\n虚词,来去除无效信息;或者,当短文本信息中所包含的信息单元本身的权重值低于预定无\n效阈值时,去除该信息单元。\n[0406] 3)根据预设的词汇权重值来提取信息单元的处理;\n[0407] 具体的,处理装置通过将信息单元与预设权重值的词汇进行匹配,来获得信息单\n元的权重值,并根据该权重值提取信息单元。其中,该提取方式包括且不限于:a)根据权重\n值的排序选择信息单元;b)设置阈值,选择词汇权重值满足阈值条件的信息单元等。\n[0408] 4)将所述待处理短文本信息与其他短文本信息进行聚合的处理。\n[0409] 其中,所述其他短文本信息均为已扩展短文本信息,所述实现聚合的方式包括但\n不限于:\n[0410] a)根据信息单元相似度进行聚合;\n[0411] 具体的,处理装置查询其他短文本信息所包含的信息单元是否与所述待处理短文\n本信息所包含的信息单元相同或相似,其中,所述相似可通过查询同义词典来进行判断,当\n查询得到其他短文本信息所包含的信息单元与所述待处理短文本信息所包含的信息单元\n相同或相似时,将该其他短文本信息与待处理短文本信息聚合。并将所聚合的其他短文本\n信息作为相关短文本信息。\n[0412] b)根据相关扩展信息进行聚合等。\n[0413] 具体的,当相关扩展信息通过根据短文本信息进行搜索而获得时,处理装置查询\n所获取的待处理短文本的相关扩展信息是否同时为其他短文本信息的相关扩展信息,即当\n根据其他短文本信息进行搜索时,是否能够同样获得该相关扩展信息,若同样能够获得该\n相关扩展信息,则进一步查询当该相关扩展信息属于待处理短文本信息的搜索结果及当该\n相关扩展信息属于其他短文本信息的搜索结果时,均有被用户点击的记录,若均有被用户\n点击的记录,则将该其他短文本信息与待处理短文本信息聚合。并将所聚合的其他短文本\n信息作为相关短文本信息。\n[0414] 需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限\n制,本领域技术人员应该理解,任何短文本处理装置根据所述待处理短文本信息的当前层\n级匹配规则对其进行相应处理的实现方式,均应包含在本发明的范围内。\n[0415] 判断装置判断处理后的待处理短文本信息是否能够与一个或多个已扩展短文本\n信息成功匹配。\n[0416] 其中,匹配方式包括且不限于:1)精确匹配;2模糊匹配;3)判断待处理短文本信\n息与已扩展短文本信息的相似度是否达到第二预定阈值等。其中,本领域技术人员应可根\n据实际情况和需求来确定该第二预定阈值。\n[0417] 第三扩展装置当短文本处理装置判断成功匹配时,将所述成功匹配的一个或多个\n已扩展短文本信息作为所述相关短文本信息,并获取该相关短文本信息对应的扩展特征词\n向量。\n[0418] 其中,查询装置5还进一步包括层级选择装置(图未示)和子处理装置(图未示)。\n[0419] 层级选择装置当判断未能成功匹配时,选择下一层级匹配规则作为当前层级匹配\n规则。\n[0420] 例如,多层级匹配规则包括第一层级匹配规则、第二层级匹配规则及第三层级匹\n配规则,其中,第一层级匹配规则中规定的相应处理方式为去除无效信息的处理方式;第二\n层级匹配规则中规定的相应处理方式为根据预设的词汇权重值来提取信息单元的处理方\n式;第三层级匹配规则中规定的处理方式为将所述待处理短文本信息与其他短文本信息进\n行聚合的处理方式。\n[0421] 若待处理短文本信息为“关于DNF游戏的下载网站”,则层级选择装置首先以第一\n层级匹配规则为当前层级匹配规则,子处理装置根据此匹配规则,去除待处理本信息中的\n无效信息后,获得短文本信息“DNF游戏下载网站”,并将该短文本信息与扩展特征向量库9\n中的已扩展短文本信息进行匹配,若匹配成功,则第三扩展装置将匹配成功的已扩展短文\n本信息作为相关短文本信息;若匹配不成功,则层级选择装置选择第二层级匹配规则作为\n当前层级匹配规则。接着,子处理装置根据第二层级匹配规则,根据预设的词汇权重值来提\n取短文本信息的信息单元,其中,提取信息单元的方式已在处理装置中予以详述,并以引用\n的方式包含于此,不再赘述,若所提取的信息单元为“DNF”、“游戏”、“下载”,则判断装置将该等信息单元与扩展特征向量库9中的已扩展短文本信息进行匹配,若匹配成功,则第三\n扩展装置将匹配成功的已扩展短文本信息作为相关短文本信息;若匹配不成功,则层级选\n择装置选择第三层级匹配规则作为当前层级匹配规则。接着,子处理装置根据第三层级匹\n配规则,将所述待处理短文本信息与其他短文本信息进行聚合,其中,聚合方式已在前述处\n理装置中予以详述,并以引用的方式包含于此,不再赘述,随后短文本处理装置将所聚合的\n其他短文本信息作为相关短文本信息。\n[0422] 又例如,多层级匹配规则包括第一层级匹配规则、第二层级匹配规则、第三层级匹\n配规则及第四层级匹配规则,其中,第一层级匹配规则中规定的相应处理方式为保留所述\n待处理短文本信息的全部内容的处理方式;第二层及匹配规则中规定的相应处理方式为去\n除无效信息的处理方式;第三层级匹配规则中规定的相应处理方式为根据预设的词汇权重\n值来提取信息单元的处理方式;第四层级匹配规则中规定的处理方式为将所述待处理短文\n本信息与其他短文本信息进行聚合的处理方式。\n[0423] 若待处理短文本信息为“关于DNF游戏的下载网站”,则层级选择装置首先以第\n一层级匹配规则为当前层级匹配规则,子处理装置根据此匹配规则,直接将待处理短文本\n信息与扩展特征向量库9中的已扩展短文本信息进行匹配,如果匹配成功,则第三扩展装\n置将匹配成功的已扩展短文本信息作为相关短文本信息;如果匹配不成功,则层级选择装\n置选择第二层级匹配规则作为当前层级匹配规则。接着,子处理装置根据第二层级匹配规\n则,去除待处理短文本信息中的无效信息,获得短文本信息“DNF游戏下载网站”,并将该短文本信息与扩展特征向量库9中的已扩展短文本信息进行匹配,若匹配成功,则第三扩展\n装置将匹配成功的已扩展短文本信息作为相关短文本信息;若匹配不成功,则层级选择装\n置选择待处理层级匹配规则作为当前层级匹配规则。接着,子处理装置根据第三层级匹配\n规则,根据预设的词汇权重值来提取短文本信息的信息单元,其中,提取信息单元的方式已\n在前述处理装置中予以详述,并以引用的方式包含于此,不再赘述,若所提取的信息单元为\n“DNF”、“游戏”、“下载”,则短文本处理装置将该等信息单元与扩展特征向量库9中的已扩展短文本信息进行匹配,若匹配成功,则第三扩展装置将匹配成功的已扩展短文本信息作为\n相关短文本信息;若匹配不成功,则层级选择装置选择第四层级匹配规则作为当前层级匹\n配规则。接着,子处理装置根据第四层级匹配规则,将所述待处理短文本信息与其他短文本\n信息进行聚合,其中,聚合方式已在前述处理装置中予以详述,并以引用的方式包含于此,\n不再赘述,随后短文本处理装置将所聚合的其他短文本信息作为相关短文本信息。\n[0424] 需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限\n制,本领域技术人员应该理解,任何当短文本处理装置判断未能成功匹配时,选择下一层级\n匹配规则作为当前层级匹配规则的实现方式,均应包含在本发明的范围内。\n[0425] 如此,通过逐级匹配,短文本处理装置获取到相关短文本信息及其对应的扩展特\n征词向量。\n[0426] 子处理装置根据所选择的当前层级匹配规则对所述待处理短文本信息进行相应\n处理。\n[0427] 具体的,子处理装置根据当前层级匹配规则来对待处理短文本信息的进行相应处\n理的方式。已经在处理装置中予以详述,并以引用的方式包含于此,不再赘述。\n[0428] 根据本实施例的方法,第二扩展装置6进一步包括第三扩展装置。\n[0429] 第三扩展装置根据所述相关短文本信息的扩展特征词向量及当前匹配层级来获\n得所述待处理短文本信息的扩展特征词向量。其中所述获得所述待处理短文本信息扩展特\n征词向量的方法包括但不限于以下至少一种:\n[0430] 1)直接将所述成功匹配的已扩展短文本信息的扩展特征词向量作为所述待处理\n短文本信息的特征词向量;\n[0431] 例如,若预设当当前匹配层级为第二层级时,直接将相关短文本信息的扩展特征\n词向量作为待处理短文本信息的扩展特征词向量,则当短文本处理装置判断当前的匹配层\n级为第二匹配层级时,第三扩展装置直接将相关短文本信息的扩展特征词向量作为待处理\n短文本信息的扩展特征词向量。\n[0432] 2)将多个所述成功匹配的已扩展短文本信息的扩展特征词向量进行合并处理后\n所得的扩展特征词向量作为所述待处理短文本信息的特征词向量。\n[0433] 其中所述合并的方式包括但不限于:a)直接合并相同的扩展特征信息;b)根据扩\n展特征信息对应的权重值进行合并等。\n[0434] 例如,对于短文本信息“DNF游戏下载”,若共获得两个相关短文本信息,该两个相关短文本信息对应的扩展特征词向量分别为“官网、免费外挂、外挂、地下城与勇士”和“外挂、地下城与勇士、地下城”,则第三扩展装置将该两项扩展特征词向量进行合并,获得待处理短文本信息的扩展特征词向量为“官网、免费外挂、外挂、地下城与勇士、地下城”。\n[0435] 又例如,对于短文本信息“DNF游戏下载”,若共获得两个相关短文本信息,该两个相关短文本信息对应的扩展特征词向量分别为:\n[0436] 第一扩展特征词向量:\n[0437] 官网 2.300327;\n[0438] 免费外挂 2.300327;\n[0439] 外挂 2.165737;\n[0440] 地下城与勇士2.030543。\n[0441] 第二扩展特征词向量:\n[0442] 外挂 2.165737;\n[0443] 地下城与勇士2.030543;\n[0444] 地下城 2.0。\n[0445] 则第三扩展装置将第一扩展特征词向量与第二扩展特征词向量合并,并对权重值\n进行相加后平均的处理,则获得待处理短文本信息的扩展特征词向量为:\n[0446] 外挂 2.165737;\n[0447] 地下城与勇士2.030543;\n[0448] 官网 1.150164;\n[0449] 免费外挂 1.150164;\n[0450] 地下城 1.0。\n[0451] 又例如,待处理短文本信息的扩展特征词向量可以在计算得到各个扩展特征信息\n的权重值的基础上,根据权重值排序后选取,或者对权重值设置阈值后选取对应的权重值\n超过该阈值的扩展特征信息。\n[0452] 随后,第三扩展装置根据获得的扩展特征信息生成待处理短文本信息的扩展特\n征词向量,并将该待处理短文本信息及其相应的扩展特征词向量存储于扩展特征向量库9\n中。\n[0453] 需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限\n制,本领域技术人员应该理解,任何根据所述相关短文本信息的扩展特征词向量及当前匹\n配层级来获得所述待处理短文本信息的扩展特征词向量的实现方式,均应包含在本发明的\n范围内。\n[0454] 根据本实施例,能够较好地对短文本信息进行扩展,通用性较强,并且便于维护。\n特别是对于一些难以获得具有较好相关性的相关扩展信息的短文本信息,通过本实施例提\n供的方法,能够快速获得针对性及可识别性较强的扩展特征信息。\n[0455] 对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在\n不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论\n从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权\n利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有\n变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此\n外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多\n个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来\n表示名称,而并不表示任何特定的顺序。
法律信息
- 2015-01-14
- 2012-09-19
实质审查的生效
IPC(主分类): G06F 17/21
专利申请号: 201010623672.X
申请日: 2010.12.30
- 2012-07-11
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2010-07-07
|
2010-02-13
| | |
2
| |
2008-08-27
|
2008-03-25
| | |
3
| |
2010-08-04
|
2010-02-11
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |