著录项信息
专利名称 | 一种搜索推荐方法及装置 |
申请号 | CN201410412536.4 | 申请日期 | 2014-08-20 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2014-12-10 | 公开/公告号 | CN104199875A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 百度在线网络技术(北京)有限公司 | 申请人地址 | 北京市海淀区上地十街10号百度大厦三层
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 百度在线网络技术(北京)有限公司 | 当前权利人 | 百度在线网络技术(北京)有限公司 |
发明人 | 孙连生;万伟;李婷婷;赵世奇 |
代理机构 | 北京品源专利代理有限公司 | 代理人 | 胡彬;路凯 |
摘要
本发明实施例公开了一种搜索推荐方法及装置,该方法包括:从用户输入的检索式中获取至少一个分词;从所获取的分词中按照预设规则筛选出实体词,形成搜索实体词集合;对所述搜索实体词集合中的实体词进行拓展,根据扩展后的实体词生成推荐检索式。本发明实施例的技术方案能实现对检索式进行不同维度的推荐和引导,更贴近用户需求。
1.一种搜索推荐方法,其特征在于,包括:
从用户输入的检索式中获取至少一个分词;
从所获取的分词中按照预设规则筛选出实体词,形成搜索实体词集合;
按照预设权重比算法分别获取所述搜索实体词集合中的实体词的权重比;
根据所述权重比对所述搜索实体词集合中的实体词进行筛选过滤;
对所述搜索实体词集合中的实体词进行拓展,根据扩展后的实体词生成推荐检索式。
2.根据权利要求1所述的搜索推荐方法,其特征在于,按照预设权重比算法分别获取所述搜索实体词集合中的实体词的权重比包括:
在实体词知识图谱中查询所述搜索实体词集合,其中所述实体词知识图谱包括至少一个实体词集合中实体词之间的权重比;
如果实体词知识图谱包括所述搜索实体词集合,则查询所述实体词知识图谱,获取所述搜索实体词集合中的实体词的权重比;
如果实体词知识图谱不包括所述搜索实体词集合,则按照预设集合调整方法获取至少一个新搜索实体词集合,查询所述实体词知识图谱,获取所述至少一个新搜索实体词集合中的实体词的权重比,根据所述至少一个新搜索实体词集合中的实体词的权重比获取所述搜索实体词集合中的实体词的权重比。
3.根据权利要求2所述的搜索推荐方法,其特征在于,按照预设集合调整方法获取至少一个新搜索实体词集合包括:
将所述搜索实体词集合中至少一个实体词替换为该实体词的父实体词,形成新搜索实体词集合;和/或
获取所述搜索实体词集合的至少两个子集合,形成所述新搜索实体词集合。
4.根据权利要求3所述的搜索推荐方法,其特征在于,根据所述至少一个新搜索实体词集合中的实体词的权重比获取所述搜索实体词集合中的实体词的权重比包括:
将调整前搜索实体词集合中的实体词,分别作为待计算的实体词,按照如下公式计算权重比,
其中,Q为所述待计算的实体词的权重,stri-gram为所述待计算的实体词在包含三个实体词的子集合中的权重比;sbi-gram为所述待计算的实体词在包含两个实体词的子集合中的权重比,M为包含三个实体词的子集合的数目,N为包含两个实体词的子集合的数目,M和N分别为自然数,w1是预设第一系数,w2是预设第二系数;
按照上述方法分别计算所述搜索实体词集合中各实体词的权重,取所述各实体词的权重的比值作为调整前的搜索实体词集合中的实体词的权重比。
5.根据权利要求1所述的搜索推荐方法,其特征在于,根据所述权重比对所述搜索实体词集合中的实体词进行筛选过滤包括:
根据所述权重比的权重排名顺序,从所述搜索实体词集合中筛选出排序靠前的设定数量的实体词;和/或
根据所述权重比的权重排名顺序,从所述搜索实体词集合中筛选出排序靠后的设定数量的实体词。
6.根据权利要求1-5任一所述的搜索推荐方法,其特征在于,对所述搜索实体词集合中的实体词进行拓展包括:
根据实体词的知识结构关系,对所述搜索实体词集合中的实体词进行替换;和/或根据所述实体词的修饰关系,向所述搜索实体词集合中添加至少一个实体词修饰词。
7.根据权利要求6所述的搜索推荐方法,其特征在于,根据实体词的知识结构关系,对所述搜索实体词集合中的实体词进行替换包括:
通过查询实体词知识图谱,获取所述实体词的父实体词、子实体词、和/或兄弟实体词,将所述实体词替换为对应的父实体词、子实体词、和/或兄弟实体词。
8.根据权利要求7所述的搜索推荐方法,其特征在于,将所述实体词替换为对应的父实体词、子实体词、和/或兄弟实体词包括:
通过查询实体词知识图谱,获取所述实体词拓展到其父实体词、子实体词和/或兄弟实体词的优选级关系向量;
根据所述优选级关系向量对所述实体词对应的父实体词、子实体词、和/或兄弟实体词进行筛选,并以筛选获得的实体词进行替换。
9.根据权利要求6所述的搜索推荐方法,其特征在于,根据所述实体词的修饰关系,向所述搜索实体词集合中添加至少一个实体词修饰词包括:
从实体词知识图谱中查找所述搜索实体词集合中实体词的实体词修饰词,形成修饰词集合,获取所述搜索实体词集合中至少两个实体词的修饰词集合的并集,作为候选待添加词集合;或,从所述实体词知识图谱中查找所述搜索实体词集合中实体词的实体词修饰词,形成候选待添加词集合;
按照如下公式分别计算所述候选待添加词集合中候选待添加词,与所述搜索实体词集合的相关性:
其中,E为所述搜索实体词集合,e为候选待添加词,R(E&e)为候选待添加词e与所述搜索实体词集合的相关性,P(E&e)为E与e在搜索日志中同时出现的概率,P(E)为E在搜索日志中单独出现的概率,P(e)为E在搜索日志中单独出现的概率;
根据所述相关性从所述候选待添加词集合中确定至少一个候选待添加词,向所述搜索实体词集合中添加。
10.根据权利要求6所述的搜索推荐方法,其特征在于,根据所述实体词的修饰关系,向所述搜索实体词集合中添加至少一个实体词修饰词包括:
从实体词知识图谱中查找所述搜索实体词集合中实体词的实体词修饰词,形成修饰词集合,获取所述搜索实体词集合中至少两个实体词的修饰词集合的并集,作为候选待添加词集合;或,从所述实体词知识图谱中查找所述搜索实体词集合中实体词的实体词修饰词,形成候选待添加词集合;
按照如下公式分别计算所述候选待添加词集合中候选待添加词的权重:
其中,V为候选待添加词的权重,Ri为所述待计算的实体词修饰词与所述搜索实体词集合中第i个实体词的相关性,Ui为所述搜索实体词集合中第i个实体词的权重比,m为所述搜索实体词集合中包含的实体词的数目;
根据所述权重从所述候选待添加词集合中确定至少一个候选待添加词,向所述搜索实体词集合中添加。
11.一种搜索推荐装置,其特征在于,包括:
分词获取单元,用于从用户输入的检索式中获取至少一个分词;
实体词获取单元,用于从所获取的分词中按照预设规则筛选出实体词,形成搜索实体词集合;
权重计算与实体词筛选单元,用于按照预设权重比算法分别获取所述搜索实体词集合中的实体词的权重比;根据所述权重比对所述搜索实体词集合中的实体词进行筛选过滤;
实体词拓展单元,用于对所述搜索实体词集合中的实体词进行拓展,根据扩展后的实体词生成推荐检索式。
12.根据权利要求11所述的搜索推荐装置,其特征在于,所述权重计算与实体词筛选单元具体用于:
在实体词知识图谱中查询所述搜索实体词集合,其中所述实体词知识图谱包括至少一个实体词集合中实体词之间的权重比;
如果实体词知识图谱包括所述搜索实体词集合,则查询所述实体词知识图谱,获取所述搜索实体词集合中的实体词的权重比;
如果实体词知识图谱不包括所述搜索实体词集合,则按照预设集合调整方法获取至少一个新搜索实体词集合,查询所述实体词知识图谱,获取所述至少一个新搜索实体词集合中的实体词的权重比,根据所述至少一个新搜索实体词集合中的实体词的权重比获取所述搜索实体词集合中的实体词的权重比。
13.根据权利要求12所述的搜索推荐装置,其特征在于,所述权重计算与实体词筛选单元具体用于:
将所述搜索实体词集合中至少一个实体词替换为该实体词的父实体词,形成新搜索实体词集合;和/或
获取所述搜索实体词集合的至少两个子集合,形成所述新搜索实体词集合。
14.根据权利要求13所述的搜索推荐装置,其特征在于,所述权重计算与实体词筛选单元具体用于:
将调整前搜索实体词集合中的实体词,分别作为待计算的实体词,按照如下公式计算权重比,
其中,Q为所述待计算的实体词的权重,stri-gram为所述待计算的实体词在包含三个实体词的子集合中的权重比;sbi-gram为所述待计算的实体词在包含两个实体词的子集合中的权重比,M为包含三个实体词的子集合的数目,N为包含两个实体词的子集合的数目,M和N分别为自然数,w1是预设第一系数,w2是预设第二系数;
按照上述方法分别计算所述搜索实体词集合中各实体词的权重,取所述各实体词的权重的比值作为调整前的搜索实体词集合中的实体词的权重比。
15.根据权利要求14所述的搜索推荐装置,其特征在于,所述权重计算与实体词筛选单元具体用于:根据所述权重比的权重排名顺序,从所述搜索实体词集合中筛选出排序靠前的设定数量的实体词;和/或
根据所述权重比的权重排名顺序,从所述搜索实体词集合中筛选出排序靠后的设定数量的实体词。
16.根据权利要求10-15任一所述的搜索推荐装置,其特征在于,所述实体词拓展单元具体用于:
根据实体词的知识结构关系,对所述搜索实体词集合中的实体词进行替换;和/或根据所述实体词的修饰关系,向所述搜索实体词集合中添加至少一个实体词修饰词。
17.根据权利要求16所述的搜索推荐装置,其特征在于,所述实体词拓展单元具体用于:
通过查询实体词知识图谱,获取所述实体词的父实体词、子实体词、和/或兄弟实体词,将所述实体词替换为对应的父实体词、子实体词、和/或兄弟实体词。
18.根据权利要求16所述的搜索推荐装置,其特征在于,所述实体词拓展单元具体用于:从实体词知识图谱中查找所述搜索实体词集合中实体词的实体词修饰词,形成修饰词集合,获取所述搜索实体词集合中至少两个实体词的修饰词集合的并集,作为候选待添加词集合;或,从所述实体词知识图谱中查找所述搜索实体词集合中实体词的实体词修饰词,形成候选待添加词集合;
按照如下公式分别计算所述候选待添加词集合中候选待添加词,与所述搜索实体词集合的相关性:
其中,E为所述搜索实体词集合,e为候选待添加词,R(E&e)为候选待添加词e与所述搜索实体词集合的相关性,P(E&e)为E与e在搜索日志中同时出现的概率,P(E)为E在搜索日志中单独出现的概率,P(e)为E在搜索日志中单独出现的概率;或
按照如下公式分别计算所述候选待添加词集合中候选待添加词的权重:
其中,V为候选待添加词的权重,Ri为所述待计算的实体词修饰词与所述搜索实体词集合中第i个实体词的相关性,Ui为所述搜索实体词集合中第i个实体词的权重比,m为所述搜索实体词集合中包含的实体词的数目;
根据所述相关性或权重从所述候选待添加词集合中确定至少一个候选待添加词,向所述搜索实体词集合中添加。
法律信息
- 2017-10-27
- 2015-01-07
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201410412536.4
申请日: 2014.08.20
- 2014-12-10
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |