著录项信息
专利名称 | 一种确定搜索需求强度的方法、需求识别的方法及其装置 |
申请号 | CN201110449432.7 | 申请日期 | 2011-12-29 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2013-07-03 | 公开/公告号 | CN103186573A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 北京百度网讯科技有限公司 | 申请人地址 | 北京市海淀区上地十街10号百度大厦2层
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 北京百度网讯科技有限公司 | 当前权利人 | 北京百度网讯科技有限公司 |
发明人 | 黄际洲;柴春光 |
代理机构 | 北京鸿德海业知识产权代理事务所(普通合伙) | 代理人 | 袁媛 |
摘要
本发明提供了一种确定搜索需求强度的方法、需求识别的方法及其装置,其中确定搜索需求强度的方法包括:提取搜索日志中的查询归属于预设需求类别的相似度特征及点击特征中的至少一个特征;根据提取的每个特征及每个特征的权重计算所述查询在所述预设需求类别的强度。需求识别的方法包括:获取线上查询;确定搜索日志中与所述线上查询最相似的线下查询;将确定的线下查询的各需求类别强度中大于预设值的需求类别强度所对应的需求类别作为所述线上查询具有的需求。通过上述方式,提高了对用户需求识别的准确率。
1.一种确定搜索需求强度的方法,其特征在于,所述方法包括:
A.提取搜索日志中的查询归属于预设需求类别的相似度特征,或者相似度特征和点击特征,其中所述查询归属于预设需求类别的相似度特征用于表征所述查询与所述预设需求类别之间的语义相似度,所述查询归属于预设需求类别的点击特征用于表征所述查询引起的点击页面属于所述预设需求类别的可能性;
B.根据提取的每个特征及每个特征的权重计算所述查询归属于所述预设需求类别的得分,并利用所述查询归属于所述预设需求类别的得分得到所述查询在所述预设需求类别的强度;其中,
提取所述查询归属于预设需求类别的相似度特征的步骤包括:
获取所述预设需求类别的核心词向量;
获取所述查询的核心词向量;
计算所述查询的核心词向量与所述预设需求类别的核心词向量之间的余弦相似度,得到所述查询归属于所述预设需求类别的相似度特征。
2.根据权利要求1所述的方法,其特征在于,获取所述预设需求类别的核心词向量的步骤包括:
获取所述预设需求类别的种子查询;
从所述预设需求类别的种子查询及所述预设需求类别的种子查询得到的点击页面中提取核心词;
确定提取的各核心词在所述预设需求类别的核心词向量中所占的权重,以生成所述预设需求类别的核心词向量。
3.根据权利要求2所述的方法,其特征在于,获取所述预设需求类别的种子查询的方式至少包括以下方式中的一种:
方式一、将搜索日志中人工标注为所述预设需求类别的查询作为所述预设需求类别的种子查询;或者
方式二:将搜索日志中与人工标注为所述预设需求类别的查询引起了相同点击页面的查询作为所述预设需求类别的种子查询。
4.根据权利要求1所述的方法,其特征在于,获取所述查询的核心词向量的步骤包括:
从所述查询及所述查询得到的点击页面中提取核心词;
确定提取的各核心词在所述查询的核心词向量中所占的权重,以生成所述查询的核心词向量。
5.根据权利要求1所述的方法,其特征在于,提取所述查询归属于预设需求类别的点击特征的步骤包括:
对所述查询引起的各点击页面的内容按照需求进行分类,以确定各点击页面所属需求类别;
统计属于所述预设需求类别的点击页面数量;
以所述查询属于所述预设需求类别的点击页面数量与所述查询引起的所有点击页面数量的比值作为所述查询归属于所述预设需求类别的点击特征。
6.一种需求识别的方法,其特征在于,所述方法包括:
获取线上查询;
确定搜索日志中与所述线上查询最相似的线下查询;
将确定的线下查询的各需求类别强度中大于预设值的需求类别强度所对应的需求类别作为所述线上查询具有的需求,其中线下查询的各需求类别强度是采用权利要求1至5中任一权项所述的确定搜索需求强度的方法得到的。
7.根据权利要求6所述的方法,其特征在于,所述方法进一步包括:
向用户返回与所述线上查询具有的需求相关的页面;或者
向用户返回与所述线上查询具有的需求相关的推荐词。
8.一种确定搜索需求强度的装置,其特征在于,所述装置包括:
相似度特征提取单元,或者相似度特征提取单元和点击特征提取单元,其中相似度特征提取单元用于提取搜索日志中的查询归属于预设需求类别的相似度特征,点击特征提取单元用于提取搜索日志中的查询归属于所述预设需求类别的点击特征,所述查询归属于所述预设需求类别的相似度特征用于表征所述查询与所述预设需求类别之间的语义相似度,所述查询归属于所述预设需求类别的点击特征用于表征所述查询引起的点击页面属于所述预设需求类别的可能性;
计算单元,用于根据提取的每个特征及每个特征的权重计算所述查询归属于所述预设需求类别的得分,并利用所述查询归属于所述预设需求类别的得分得到所述查询在所述预设需求类别的强度;其中,
所述相似度特征提取单元包括:
需求向量获取单元,用于获取所述预设需求类别的核心词向量;
查询向量获取单元,用于获取所述查询的核心词向量;
相似度计算单元,用于计算所述查询的核心词向量与所述预设需求类别的核心词向量之间的余弦相似度,得到所述查询归属于所述预设需求类别的相似度特征。
9.根据权利要求8所述的装置,其特征在于,所述需求向量获取单元包括:
种子获取单元,用于在获取所述预设需求类别的核心词向量时,获取所述预设需求类别的种子查询;
第一提取单元,用于从所述预设需求类别的种子查询及所述预设需求类别的种子查询得到的点击页面中提取核心词;
第一确定单元,用于确定提取的各核心词在所述预设需求类别的核心词向量中所占的权重,以生成所述预设需求类别的核心词向量。
10.根据权利要求9所述的装置,其特征在于,所述种子获取单元获取所述预设需求类别的种子查询的方式至少包括以下方式中的一种:
方式一、将搜索日志中人工标注为所述预设需求类别的查询作为所述预设需求类别的种子查询;或者
方式二:将搜索日志中与人工标注为所述预设需求类别的查询引起了相同点击页面的查询作为所述预设需求类别的种子查询。
11.根据权利要求8所述的装置,其特征在于,所述查询向量获取单元包括:
第二提取单元,用于从所述查询及所述查询得到的点击页面中提取核心词;
第二确定单元,用于确定提取的各核心词在所述查询的核心词向量中所占的权重,以生成所述查询的核心词向量。
12.根据权利要求8所述的装置,所述点击特征提取单元包括:
分类单元,用于对所述查询引起的各点击页面的内容按照需求进行分类,以确定各点击页面所属需求类别;
统计单元,用于统计属于所述预设需求类别的点击页面数量;
特征确定单元,用于以所述查询属于所述预设需求类别的点击页面数量与所述查询引起的所有点击页面数量的比值作为所述查询归属于所述预设需求类别的点击特征。
13.一种需求识别的装置,其特征在于,所述装置包括:
接收单元,用于获取线上查询;
查询确定单元,用于确定搜索日志中与所述线上查询最相似的线下查询;
需求确定单元,用于将确定的线下查询的各需求类别强度中大于预设值的需求类别强度所对应的需求类别作为所述线上查询具有的需求,其中线下查询的各需求类别强度是采用权利要求8至12中任一权项所述的确定搜索需求强度的装置得到的。
14.根据权利要求13所述的装置,其特征在于,所述装置进一步包括:
页面返回单元,用于向用户返回与所述线上查询具有的需求相关的页面;或者推荐词返回单元,用于向用户返回与所述线上查询具有的需求相关的推荐词。
一种确定搜索需求强度的方法、需求识别的方法及其装置\n【技术领域】\n[0001] 本发明涉及数据处理技术,特别涉及一种确定搜索需求强度的方法、需求识别的方法及其装置。\n【背景技术】\n[0002] 随着搜索引擎技术的发展,用户已经不仅仅满足于从搜索引擎中获取与搜索关键字匹配的内容,而是希望能够获得与自己搜索目的相关的结果。为了向用户提供与搜索目的相关的搜索结果,就必须对用户的搜索需求进行识别。在现有的搜索需求识别的方法中,采用简单规则对用户的需求进行识别,例如制定规则“凡是以MP3结尾的查询都具有音乐需求”等等,这种方式虽然简单,但是需要大量的人力物力去制定规则,并且规则写入到程序当中,使得需求识别程序的可扩展性和可维护性都大大降低,同时,由于规则难以适应需求的变化,这种方式对用户需求的识别效果也比较差。\n【发明内容】\n[0003] 本发明所要解决的技术问题是提供一种确定搜索需求强度的方法、需求识别的方法及其装置,以解决现有技术中对用户的需求进行识别时,识别程序的可扩展性和可维护性差,且对用户需求的识别准确率较低的缺陷。\n[0004] 本发明为解决技术问题而采用的技术方案是提供一种确定搜索需求强度的方法,包括:A.提取搜索日志中的查询归属于预设需求类别的相似度特征及点击特征中的至少一个特征,其中所述查询归属于预设需求类别的相似度特征用于表征所述查询与所述预设需求类别之间的语义相似度,所述查询归属于预设需求类别的点击特征用于表征所述查询引起的点击页面属于所述预设需求类别的可能性;B.根据提取的每个特征及每个特征的权重计算所述查询归属于所述预设需求类别的得分,并利用所述查询归属于所述预设需求类别的得分得到所述查询在所述预设需求类别的强度。\n[0005] 根据本发明之一优选实施例,提取所述查询归属于预设需求类别的相似度特征的步骤包括:获取所述预设需求类别的核心词向量;获取所述查询的核心词向量;计算所述查询的核心词向量与所述预设需求类别的核心词向量之间的余弦相似度,得到所述查询归属于所述预设需求类别的相似度特征。\n[0006] 根据本发明之一优选实施例,获取所述预设需求类别的核心词向量的步骤包括:\n获取所述预设需求类别的种子查询;从所述预设需求类别的种子查询及所述预设需求类别的种子查询得到的点击页面中提取核心词;确定提取的各核心词在所述预设需求类别的核心词向量中所占的权重,以生成所述预设需求类别的核心词向量。\n[0007] 根据本发明之一优选实施例,获取所述预设需求类别的种子查询的方式至少包括以下方式中的一种:方式一、将搜索日志中人工标注为所述预设需求类别的查询作为所述预设需求类别的种子查询;或者方式二:将搜索日志中与人工标注为所述预设需求类别的查询引起了相同点击页面的查询作为所述预设需求类别的种子查询。\n[0008] 根据本发明之一优选实施例,获取所述查询的核心词向量的步骤包括:从所述查询及所述查询得到的点击页面中提取核心词;确定提取的各核心词在所述查询的核心词向量中所占的权重,以生成所述查询的核心词向量。\n[0009] 根据本发明之一优选实施例,提取所述查询归属于预设需求类别的点击特征的步骤包括:对所述查询引起的各点击页面的内容按照需求进行分类,以确定各点击页面所属需求类别;统计属于所述预设需求类别的点击页面数量;以所述查询属于所述预设需求类别的点击页面数量与所述查询引起的所有点击页面数量的比值作为所述查询归属于所述预设需求类别的点击特征。\n[0010] 本发明还提供了一种需求识别的方法,包括:获取线上查询;确定搜索日志中与所述线上查询最相似的线下查询;将确定的线下查询的各需求类别强度中大于预设值的需求类别强度所对应的需求类别作为所述线上查询具有的需求,其中线下查询的各需求类别强度是采用前文所述的确定搜索需求强度的方法得到的。\n[0011] 根据本发明之一优选实施例,所述需求识别方法进一步包括:向用户返回与所述线上查询具有的需求相关的页面;或者向用户返回与所述线上查询具有的需求相关的推荐词。\n[0012] 本发明还提供了一种确定搜索需求强度的装置,包括:相似度特征提取单元或点击特征提取单元中的至少一个,其中相似度特征提取单元用于提取搜索日志中的查询归属于预设需求类别的相似度特征,点击特征提取单元用于提取搜索日志中的查询归属于所述预设需求类别的点击特征,所述查询归属于所述预设需求类别的相似度特征用于表征所述查询与所述预设需求类别之间的语义相似度,所述查询归属于所述预设需求类别的点击特征用于表征所述查询引起的点击页面属于所述预设需求类别的可能性;计算单元,用于根据提取的每个特征及每个特征的权重计算所述查询归属于所述预设需求类别的得分,并利用所述查询归属于所述预设需求类别的得分得到所述查询在所述预设需求类别的强度。\n[0013] 根据本发明之一优选实施例,所述相似度特征提取单元包括:需求向量获取单元,用于获取所述预设需求类别的核心词向量;查询向量获取单元,用于获取所述查询的核心词向量;相似度计算单元,用于计算所述查询的核心词向量与所述预设需求类别的核心词向量之间的余弦相似度,得到所述查询归属于所述预设需求类别的相似度特征。\n[0014] 根据本发明之一优选实施例,所述需求向量获取单元包括:种子获取单元,用于在获取所述预设需求类别的核心词向量时,获取所述预设需求类别的种子查询;第一提取单元,用于从所述预设需求类别的种子查询及所述预设需求类别的种子查询得到的点击页面中提取核心词;第一确定单元,用于确定提取的各核心词在所述预设需求类别的核心词向量中所占的权重,以生成所述预设需求类别的核心词向量。\n[0015] 根据本发明之一优选实施例,所述种子获取单元获取所述预设需求类别的种子查询的方式至少包括以下方式中的一种:方式一、将搜索日志中人工标注为所述预设需求类别的查询作为所述预设需求类别的种子查询;或者方式二:将搜索日志中与人工标注为所述预设需求类别的查询引起了相同点击页面的查询作为所述预设需求类别的种子查询。\n[0016] 根据本发明之一优选实施例,所述查询向量获取单元包括:第二提取单元,用于从所述查询及所述查询得到的点击页面中提取核心词;第二确定单元,用于确定提取的各核心词在所述查询的核心词向量中所占的权重,以生成所述查询的核心词向量。\n[0017] 根据本发明之一优选实施例,所述点击特征提取单元包括:分类单元,用于对所述查询引起的各点击页面的内容按照需求进行分类,以确定各点击页面所属需求类别;统计单元,用于统计属于所述预设需求类别的点击页面数量;特征确定单元,用于以所述查询属于所述预设需求类别的点击页面数量与所述查询引起的所有点击页面数量的比值作为所述查询归属于所述预设需求类别的点击特征。\n[0018] 本发明还提供了一种需求识别的装置,包括:接收单元,用于获取线上查询;查询确定单元,用于确定搜索日志中与所述线上查询最相似的线下查询;需求确定单元,用于将确定的线下查询的各需求类别强度中大于预设值的需求类别强度所对应的需求类别作为所述线上查询具有的需求,其中线下查询的各需求类别强度是采用前文所述的确定搜索需求强度的装置得到的。\n[0019] 根据本发明之一优选实施例,所述需求识别装置进一步包括:页面返回单元,用于向用户返回与所述线上查询具有的需求相关的页面;或者推荐词返回单元,用于向用户返回与所述线上查询具有的需求相关的推荐词。\n[0020] 由以上技术方案可以看出,通过对线下查询提取特征,并依据提取的特征计算线下查询的需求强度,可以实现对线上查询的需求识别。由于每个线下查询存在着不同的需求强度分值,通过衡量线上查询与线下查询的相似度,就可以根据需要通过不同的需求强度预设值对用户的线上查询具有的需求进行选取,从而使得需求识别程序的可扩展性和可维护性都大大提高,也提高了对用户需求识别的准确率。\n【附图说明】\n[0021] 图1为本发明中确定搜索需求强度的方法与需求识别的方法的实施例的流程示意图;\n[0022] 图2为本发明中训练分类器并利用分类器对页面进行分类的过程的示意图;\n[0023] 图3为本发明中确定搜索需求强度的装置与需求识别的装置的实施例的结构示意框图;\n[0024] 图4为本发明中相似度特征提取单元的实施例的结构示意框图;\n[0025] 图5为本发明中点击特征提取单元的实施例的结构示意框图。\n【具体实施方式】\n[0026] 为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。\n[0027] 请参考图1,图1为本发明中确定搜索需求强度的方法与需求识别的方法的实施例的流程示意图,其中图1的线下部分为确定搜索需求强度的方法的流程示意图,图1的线上部分为需求识别的方法的流程示意图。如图1所示,确定搜索需求强度的方法包括:\n[0028] S101:提取搜索日志中的查询归属于预设需求类别的相似度特征及点击特征中的至少一个特征。\n[0029] S102:根据提取的每个特征及每个特征的权重计算该查询归属于预设需求类别的得分,并利用该查询归属于预设需求类别的得分得到该查询在预设需求类别的强度。\n[0030] 下面对上述步骤进行具体说明。\n[0031] 本发明中的需求类别,是预先设置的对搜索日志中的查询进行分类的类别。例如:\n小说类需求、音乐类需求、住房类需求等等。\n[0032] 查询归属于一个需求类别的相似度特征用于表征该查询与该需求类别之间的语义相似度。查询归属于一个需求类别的点击特征用于表征该查询引起的点击页面归属于该需求类别的可能性。\n[0033] 步骤S101中提取一个查询归属于预设需求类别的相似度特征的步骤包括:\n[0034] 步骤S1011:获取该需求类别的核心词向量。\n[0035] 步骤S1012:获取该查询的核心词向量。\n[0036] 步骤S1013:计算该查询的核心词向量与该需求类别的核心词向量之间的余弦相似度,得到该查询归属于该需求类别的相似度特征。\n[0037] 步骤S1011中,获取预设需求类别的核心词向量的步骤包括:\n[0038] 步骤S10111:获取该需求类别的种子查询。\n[0039] 步骤S10112:从该需求类别的种子查询及该需求类别的种子查询得到的点击页面中提取核心词。\n[0040] 步骤S10113:确定提取的各核心词在该需求类别的核心词向量中所占的权重,以生成该需求类别的核心词向量。\n[0041] 步骤S10111中,种子查询指的是搜索日志中能反映相应预设需求的查询。本实施例中,获取预设需求类别的种子查询的方式包括:\n[0042] 方式一:将搜索日志中人工标注为该需求类别的查询作为该需求类别的种子查询。\n[0043] 例如可以在搜索日志中标注“斗破苍穹最新章节”、“小说斗破苍穹”、“斗破苍穹txt”等查询为小说类的查询,这些标注的查询就可以作为小说需求类别的种子查询。\n[0044] 方式二:将搜索日志中与人工标注为该需求类别的查询引起了相同点击页面的查询作为该需求类别的种子查询。\n[0045] 搜索日志中记录了查询与查询引起的点击页面之间的对应关系。人工标注的种子查询引起的点击页面,也可能被其他查询点击,这些与人工标注的种子查询点击了相同页面的查询也可以作为种子查询。\n[0046] 人工标注的种子查询数量不需要很多,通过方式二,可以在人工标注种子查询的基础上得到数量更多的种子查询。\n[0047] 例如:与“小说斗破苍穹”这个查询点击了相同页面的查询有“斗破苍穹全文阅读”、“玄幻小说下载”,因此“斗破苍穹全文阅读”和“玄幻小说下载”也可以作为小说需求类别的种子查询。\n[0048] 除了上述两种方式获取预设需求类别的种子查询以外,还可以通过查询模板来挖掘预设需求类别的种子查询。例如有预设需求类别的查询模板,搜索日志中凡是与该查询模板匹配的查询,均可以作为预设需求类别的种子查询。又或者有预设需求类别的页面地址(URL)模板,搜索日志中凡是与该页面地址模板匹配的页面地址所对应的查询,也可以作为预设需求类别的种子查询。应该理解,本发明对获取种子查询的方式并不加以限定,任何能够得到与需求类别相关的查询的方式均可作为获取种子查询的方式。\n[0049] 步骤S10112中,从种子查询及种子查询得到的点击页面中提取核心词,可以通过词频统计的方式来进行。具体的方式为:在对种子查询及种子查询得到的点击页面进行分词处理后,计算每个词的词频,将词频满足预设要求的词语作为核心词。\n[0050] 种子查询得到的点击页面包括了页面的标题(title)部分和页面的内容部分。页面的标题部分,指的是在一个页面的HTML格式文件中,属于title标签对里的内容。页面的标题部分,通常能够反映该页面的主题,因此可以认为标题部分的词语在种子查询得到的整个点击页面中的重要性比较高,在提取核心词时,可以为种子查询中的词与页面的标题部分的词语设置较高的权重,这样在对每个词加权计算词频时,就更容易得到合理的核心词。\n[0051] 例如对住房需求类别的种子查询“洪家华天大厦”,其得到的页面的标题部分中包含的词语有“洪家华天大厦、二手房、台州”,而页面的内容部分包含的词语有“洪家华天大厦、二手房、限购、小区、房屋、出售”,假设种子查询与页面的标题部分中每个词均出现了1次,而页面的内容部分包含的词语中“洪家华天大厦”出现了2次,“二手房”出现了1次,“限购”出现了1次,“小区”出现了5次,“房屋”出现了2次,“出售”出现了1次,且为种子查询和页面的标题部分的词语设置的权重是1,而为页面的内容部分的词语设置的权重是0.5,则计算上述种子查询及种子查询得到的点击页面中的所有词语的词频,得到:\n[0052] “洪家华天大厦”的词频=1*1+1*1+0.5*2=3\n[0053] “二手房”的词频=1*0+1*1+0.5*1=1.5\n[0054] “台州”的词频=1*0+1*1+0.5*0=1\n[0055] “限购”=1*0+1*0+0.5*1=0.5\n[0056] “小区”=1*0+1*0+0.5*5=2.5\n[0057] “房屋”=1*0+1*0+1*0.5=0.5\n[0058] “出售”=1*0+1*0+1*0.5=0.5\n[0059] 如果设定将词频大于1的词语选择为核心词,则上述例子中可以得到的住房类别的核心词为“洪家华天大厦”、“二手房”和“小区”。\n[0060] 当然,在确定核心词时,也可以仅对查询中的词语进行加权处理,应该理解,以上实例仅是为了便于理解本发明而举的一个例子,并不用于对本发明进行限定,本发明对确定核心词时的策略不做限定。\n[0061] 步骤S10113中,确定提取的各核心词在对应需求类别的核心词向量中所占的权重时,可以采用核心词的词频作为对应的权重,也可以采用核心词的词频-逆文档频率(TF-IDF)作为对应的权重。由于确定一个词语的词频逆文档频率属于现有技术,在此不再做过多的说明。\n[0062] 在确定出提取的每个核心词所占的权重后,实际上代表着预设需求类别的核心词就被量化了,每个权重构成了核心词向量中的一个分量,从而形成了整个核心词向量。比如上述的“洪家华天大厦”的权重为3,“二手房”的权重为2,“小区”的权重为2.5,则住房需求类别的核心词向量就可以表示为{(洪家华天大厦,3),(小区,2.5),(二手房,2)}。\n[0063] 与步骤S1011中获取预设需求类别的核心词向量类似的,步骤S1012中获取查询的核心词向量包括:\n[0064] 从该查询及该查询得到的点击页面中提取核心词;确定提取的各核心词在该查询的核心词向量中所占的权重,以生成该查询的核心词向量。\n[0065] 上述提取核心词的过程与确定权重的过程均与步骤S1011中描述的提取核心词与确定权重的过程类似,在此不再单独描述。\n[0066] 本发明中,除了可以用相似度特征来衡量查询具有某种需求的强度,还可以利用查询的点击特征衡量该查询具有某种需求的强度。\n[0067] 在步骤S101中,提取查询归属于预设需求类别的点击特征的步骤包括:\n[0068] 步骤S101a:对该查询引起的各点击页面的内容按照需求进行分类,以确定各点击页面所属需求类别。\n[0069] 步骤S101b:统计属于预设需求类别的点击页面数量。\n[0070] 步骤S101c:以该查询属于预设需求类别的点击页面数量与该查询引起的所有点击页面数量的比值作为该查询归属于预设需求类别的点击特征。\n[0071] 步骤S101a中,对点击页面的内容按照需求进行分类,可以采用任意的现有分类技术进行,本发明对此不做限制,常见的方式是采用机器学习的方法训练分类器,然后用训练后的分类器对未知类别的页面进行分类。分类器可以理解为一个模型,训练分类器的过程实际上就是获取该模型未知的分类参数的过程,当模型训练结束,该模型的各分类参数也就确定了,这时的模型便可以用于对未知类别的页面进行分类。请参考图2,图2为本发明中训练分类器并利用分类器对页面进行分类的过程的示意图。\n[0072] 在图2所示的训练分类器的阶段,需要先按照需求类别标注一批页面作为训练语料,然后对训练语料提取分类时使用的特征。分类时使用的特征可以是由页面的特征词形成的特征向量。页面的特征词及特征词在特征向量中所占的权重,可以采用与前文所述的获取核心词向量类似的方法,在此不再赘述。\n[0073] 与同一个查询产生点击关系的页面可能有多个,在步骤S101a中分别确定了这些点击页面所属类别,在步骤S101b中,将统计预设需求类别包含的点击页面数量,并在步骤S101c中以预设需求类别包含的点击页面数量与该查询的所有点击页面数量的比值作为该查询归属于预设需求类别的点击特征。\n[0074] 例如:对查询“宫崎骏的作品”,其对应点击的页面中有1000个页面属于动画需求类别,有100个页面属于音乐需求类别,而对应点击页面中属于其他需求类别的页面数均为零,则“宫崎骏的作品”这个查询属于动画需求类别的点击特征值就是1000/1100,而属于音乐需求类别的点击特征值就是100/1000,由于该查询没有属于其他需求类别的点击页面,因此该查询属于其他需求类别的点击特征值就是0,由此可以看出,“宫崎骏的作品”具有动画需求的可能性非常高,而具有其他需求的可能性比较小。\n[0075] 在得到查询归属于预设需求类别的特征后,在步骤S102中就可以根据提取的特征及特征的权重计算该查询归属于预设需求类别的得分,该得分即为该查询在预设需求类别的强度。\n[0076] 提取的各特征在最终得分中所占的权重,可以通过预先设定,也可以通过机器学习的方法得到,具体地,可采用各种已有的特征融合算法来确定提取的每个特征所占的权重,在此不再对现有的特征融合算法进行赘述。\n[0077] 请继续参考图1,图1中的线上部分为需求识别的方法的流程示意图。如图1所示,需求识别的方法包括:\n[0078] 步骤S201:获取线上查询。\n[0079] 步骤S202:确定搜索日志中与线上查询最相似的线下查询。\n[0080] 步骤S203:将确定的线下查询的各需求类别强度中大于预设值的需求类别强度所对应的需求类别作为线上查询具有的需求,其中线下查询的各需求类别强度是采用前文所述的确定搜索需求强度的方法得到的。\n[0081] 线上查询就是用户在线发出的查询。步骤S202中确定搜索日志中与线上查询最相似的线下查询可以采用多种方法。例如可以通过前文描述的获取核心词向量类似的方法,利用线上查询和线下查询的检索结果分别对线上查询与线下查询进行扩展并抽取词向量后,计算线上查询与各个线下查询的语义相似度,将语义相似度最高的线下查询作为与线上查询最相似的查询,或者确定线上查询与线下查询的编辑距离,将与线上查询之间的编辑距离最小的线下查询作为与线上查询最相似的线下查询,或者本领域技术人员可以想到的任何其他判断两个查询之间相似程度的方法。本发明对如何确定与线上查询之间最相似的线下查询的方式不做限定。\n[0082] 由于线下查询通过前文所述的确定搜索需求强度的方法可以确定出对应各需求类别的强度,因此在步骤S203中,只需要通过预设值确定需求强度的阈值,就可以把大于这个阈值的需求强度所对应的需求类别作为线上查询具有的需求。\n[0083] 进一步地,在需求识别的方法中,在识别出线上查询所具有的需求后,可根据线上查询具有的需求,向用户返回相关的内容,例如向用户返回与线上查询具有的需求相关的页面,或者向用户返回与线上查询具有的需求相关的推荐词。\n[0084] 假设线上查询“见不见”与搜索日志中的线下查询“见或不见”最相似,而“见或不见”具有的需求分别有诗歌需求、音乐需求和影视需求,则在向用户返回搜索结果时,可以返回与诗歌需求、音乐需求或影视需求相关的页面,或者向用户返回与这几个需求相关的推荐词,如“仓央嘉措”、“何晟铭”或“宫锁心玉”等等。\n[0085] 请参考图3。图3为本发明中确定搜索需求强度的装置与需求识别的装置的实施例的结构示意框图。其中图3的线上部分是确定搜索需求强度的装置的结构示意框图,图3的线下部分是需求识别的装置的结构示意框图。如图3所示,确定搜索需求强度的装置包括相似度特征提取单元301、点击特征提取单元302、计算单元303。\n[0086] 其中,相似度特征提取单元301,用于提取搜索日志中的查询归属于预设需求类别的相似度特征,查询归属于预设需求类别的相似度特征用于表征该查询与预设需求类别之间的语义相似度。\n[0087] 点击特征提取单元302,用于提取搜索日志中的查询归属于预设需求类别的点击特征,查询归属于预设需求类别的点击特征用于表征该查询引起的点击页面属于预设需求类别的可能性。\n[0088] 计算单元303,用于根据提取的每个特征及每个特征的权重计算查询归属于预设需求类别的得分,并将该查询归属于预设需求类别的得分作为该查询在预设需求类别的强度。\n[0089] 请参考图4,图4为本发明中相似度特征提取单元的实施例的结构示意框图。如图4所示,相似度特征提取单元301包括需求向量获取单元3011、查询向量获取单元3012及相似度计算单元3013。\n[0090] 其中需求向量获取单元3011,用于获取预设需求类别的核心词向量。查询向量获取单元3012,用于获取查询的核心词向量。相似度计算单元3013,用于计算查询的核心词向量与预设需求类别的核心词向量之间的余弦相似度并将预设需求类别对应的余弦相似度,得到该查询归属于预设需求类别的相似度特征。\n[0091] 需求向量单元获取单元3011包括:种子获取单元3011_1,用于在获取预设需求类别的核心词向量时,获取预设需求类别的种子查询,第一提取单元3011_2,用于从预设需求类别的种子查询及预设需求类别的种子查询得到的点击页面中提取核心词,第一确定单元\n3011_3,用于确定提取的各核心词在预设需求类别的核心词向量中所占的权重,以生成预设需求类别的核心词向量。\n[0092] 其中种子获取单元3011_1获取预设需求类别的种子查询的方式至少包括以下一种:\n[0093] 方式一、将搜索日志中人工标注为预设需求类别的查询作为预设需求类别的种子查询;或者\n[0094] 方式二:将搜索日志中与人工标注为预设需求类别的查询引起了相同点击页面的查询作为预设需求类别的种子查询。\n[0095] 查询向量获取单元3012包括第二提取单元3012_1和第二确定单元3012_2。其中第二提取单元3012_1用于从查询和查询得到的点击页面中提取核心词,第二确定单元3012_2用于确定提取的各核心词在查询的核心词向量中所占的权重,以生成查询的核心词向量。\n[0096] 请参考图5,图5为本发明中点击特征提取单元的实施例的结构示意框图。如图5所示,点击特征提取单元302包括分类单元3021、统计单元3022及特征确定单元3023。\n[0097] 其中分类单元3021用于对查询引起的各点击页面的内容按照需求进行分类,以确定各点击页面所属需求类别。统计单元3022用于统计属于预设需求类别的点击页面数量。\n特征确定单元3023用于以查询属于预设需求类别的点击页面数量与查询引起的所有点击页面数量的比值作为查询归属于预设需求类别的点击特征。\n[0098] 请继续参考3。图3中的线上部分为需求识别装置的结构示意框图。如图3所示,需求识别的装置包括:接收单元401、查询确定单元402及需求确定单元403。\n[0099] 其中,接收单元401用于获取线上查询。查询确定单元402用于确定搜索日志中与线上查询最相似的线下查询。需求确定单元403用于将确定的线下查询的各需求类别强度中大于预设值的需求类别强度所对应的需求类别作为线上查询具有的需求,其中线下查询的各需求类别强度是采用前文所述的确定搜索需求强度的装置得到的。\n[0100] 此外,需求识别的装置进一步还可包括页面返回单元404和推荐词返回单元405。\n其中页面返回单元404用于想用户返回与线上查询具有的需求相关的页面,推荐词返回单元405用于向用户返回与线上查询具有的需求相关的推荐词。\n[0101] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
法律信息
- 2016-05-18
- 2013-08-28
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201110449432.7
申请日: 2011.12.29
- 2013-07-03
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2011-06-15
|
2011-02-15
| | |
2
| |
2010-01-13
|
2008-02-20
| | |
3
| |
2011-05-04
|
2010-11-25
| | |
4
| |
2011-04-13
|
2009-09-04
| | |
5
| |
2009-10-14
|
2009-05-06
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |