著录项信息
专利名称 | 搜索词推荐方法及装置 |
申请号 | CN201410377857.5 | 申请日期 | 2014-08-01 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2014-11-12 | 公开/公告号 | CN104143001A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 百度在线网络技术(北京)有限公司 | 申请人地址 | 北京市海淀区上地十街10号百度大厦
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 百度在线网络技术(北京)有限公司 | 当前权利人 | 百度在线网络技术(北京)有限公司 |
发明人 | 周珣;张智敏;隋宏亮;王京傲 |
代理机构 | 北京鸿德海业知识产权代理事务所(普通合伙) | 代理人 | 袁媛 |
摘要
本发明提供一种搜索词推荐方法及装置。搜索词推荐方法包括:从用户的历史搜索词中,确定候选搜索词,历史搜索词是指用户的历史搜索中使用的搜索词;获取表征候选搜索词在历史搜索中出现特性的参数;根据参数,从候选搜索词中确定推荐搜索词。本发明技术方案基于预测用户的历史搜索词是否在未来搜索过程中出现,向用户推荐搜索词,可以提高向用户推荐搜索词的准确度。
搜索词推荐方法及装置\n【技术领域】\n[0001] 本发明涉及互联网技术领域,尤其涉及一种搜索词推荐方法及装置。\n【背景技术】\n[0002] 用户进行搜索时,需要在搜索引擎提供的输入框中,输入与用户搜索意图相关的搜索词(query)。现有技术一般会在用户输入搜索词中的一个或几个字符时,将用户输入的字符作为前缀在历史搜索词中进行匹配,并将匹配到的包括该前缀的搜索词以下拉列表的形式提供给用户,以供用户直接从下拉列表中选择要输入的搜索词。这种向用户推荐搜索词的方法比较简单,向用户所推荐的搜索词的准确度较低。\n【发明内容】\n[0003] 本发明的多个方面提供一种搜索词推荐方法及装置,用以提高向用户推荐搜索词的准确度。\n[0004] 本发明的一方面,提供一种搜索词推荐方法,包括:\n[0005] 从用户的历史搜索词中,确定候选搜索词,所述历史搜索词是指所述用户的历史搜索中使用的搜索词;\n[0006] 获取表征所述候选搜索词在所述历史搜索中出现特性的参数;\n[0007] 根据所述参数,从所述候选搜索词中确定推荐搜索词。\n[0008] 本发明的另一方面,提供一种搜索词推荐装置,包括:\n[0009] 第一确定模块,用于从用户的历史搜索词中,确定候选搜索词,所述历史搜索词是指所述用户的历史搜索中使用的搜索词;\n[0010] 获取模块,用于获取表征所述候选搜索词在所述历史搜索中出现特性的参数;\n[0011] 第二确定模块,用于根据所述参数,从所述候选搜索词中确定推荐搜索词。\n[0012] 本发明从用户的历史搜索词中确定候选搜索词,获取表征该候选搜索词在历史搜索词中出现特性的参数,基于所获取的参数从候选搜索词中确定推荐搜索词。本发明利用用户的历史搜索词在历史搜索中的出现特性,准确的预测用户在未来搜索行为中何时再出现历史搜索词,基于此向用户推荐搜索词,可以提升向用户推荐搜索词的准确度。\n【附图说明】\n[0013] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。\n[0014] 图1为本发明一实施例提供的搜索词推荐方法的流程示意图;\n[0015] 图2为本发明另一实施例提供的搜索词推荐方法的流程示意图;\n[0016] 图3为本发明一实施例提供的搜索词推荐装置的结构示意图。\n【具体实施方式】\n[0017] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。\n[0018] 图1为本发明一实施例提供的搜索词推荐方法的流程图。如图1所示,该方法包括:\n[0019] 101、从用户的历史搜索词中,确定候选搜索词,历史搜索词是指用户的历史搜索中使用的搜索词。\n[0020] 102、获取表征上述候选搜索词在历史搜索中出现特性的参数。\n[0021] 103、根据上述参数,从上述候选搜索词中确定推荐搜索词。\n[0022] 考虑到用户在历史搜索中使用的搜索词往往会以一定概率在未来的搜索过程中出现,或者会以一定概率在未来搜索行为中出现相类似但不完全相同的搜索词,如果能够准确预测出某个或某些历史搜索词会在未来搜索过程中出现,则可以将该历史搜索词推荐给用户,以供用户在未来的搜索过程中使用,这将提高向用户推荐搜索词的准确度。\n[0023] 基于上述考虑,本实施例的搜索词推荐装置基于对用户的历史搜索词的预测,确定用户可能在未来搜索过程中使用的搜索词(即推荐搜索词),并将所确定的搜索词推荐给用户,以提高向用户推荐搜索词的准确度。\n[0024] 具体的,搜索词推荐装置首先从用户的历史搜索词中,确定候选搜索。例如,搜索词推荐装置可以直接将用户的历史搜索词作为候选搜索词。值得说明的是,如果用户的历史搜索词有多个,则候选搜索词也会有多个。除了该方式之外,搜索词推荐装置也可以采用其他方式从用户的历史搜索词中,确定候选搜索词,例如确定历史搜索词中出现次数大于预设的次数阈值的搜索词作为候选搜索词等。\n[0025] 接着,搜索词推荐装置获取可以表征该候选搜索词在历史搜索中出现特性的参数,进而基于候选搜索词在历史搜索中出现的特性预测该候选搜索词是否会在未来搜索过程中出现。具体的,搜索词推荐装置可以对用户历史搜索数据中与候选搜索词相关的数据进行统计,获得候选搜索词在历史搜索中出现的特性,进而获得可以表征候选搜索词在历史搜索中出现特性的参数。\n[0026] 下面对候选搜索词在历史搜索中出现的特性进行举例说明:\n[0027] 例如,对于用户来说,使用搜索词进行搜索可能存在一定的周期性,总体上来说周期性是受外界因素影响以及用户自身习惯影响而决定的,例如用户的对某一综艺节目的关注可能是受综艺节目周期性播出的影响,而用户对彩票的关注主要受彩票的周期性开奖时间的影响,再例如用户可能受习惯影响,可能偏好晚上看小说,而白天上班路上看新闻。因此,候选搜索词在历史搜索中出现的特性可以包括:候选搜索词在历史搜索中出现的周期性。\n[0028] 例如,对于用户来说,使用搜索词进行搜索可能存在一定的爆发性,即搜索词爆发性出现。搜索词的爆发性出现是指在短时间内用户频繁使用该搜索词进行搜索。例如,一个用户在过去一段时间内曾频繁看某本小说,但当下比较少有看这本小说的需求,很可能该用户已看完这本小说,而不再会选择反复阅读这本小说,因此,有关该小说的搜索词就会在过去一段时间内频繁被使用。因此,候选搜索词在历史搜索中出现的特性可以包括:候选搜索词在历史搜索中出现的爆发性。\n[0029] 例如,对于用户来说,使用搜索词进行搜索一定程度上会受用户自身偏好的影响。\n例如,有的用户会偏向于使用搜索引擎重复使用相同的搜索词进行搜索,获取重复需求,而有些用户可能更偏向于将搜索引擎作为他们了解新事物或新问题的工具。这一特性可以通过用户在历史搜索上重复使用同一搜索词的次数以及重复使用同一搜索词的平均时间间隔来表示。基于此,候选搜索词在历史搜索中出现的特性还可以包括:候选搜索词在历史搜索中重复出现的次数和重复出现的时间间隔。\n[0030] 基于上述举例说明,本实施例中候选搜索词在历史搜索中出现的特性可以包括上述候选搜索词在历史搜索中出现的周期性、爆发性、重复出现的次数和重复出现的时间间隔中的至少一个。\n[0031] 在一可选实施方式中,搜索词推荐装置获取表征上述候选搜索词在历史搜索中出现特性的参数,包括:获取以下至少一个参数:\n[0032] 表征上述候选搜索词在历史搜索中周期性出现特性的第一时间序列;\n[0033] 表征上述候选词在历史搜索中爆发性出现特性的第二时间序列;\n[0034] 上述候选搜索词在历史搜索中重复出现的次数;以及\n[0035] 上述候选搜索词在历史搜索中重复出现的平均时间间隔。\n[0036] 其中,爆发性出现是指出现频度大于频度阈值的情况。\n[0037] 进一步,上述第一时间序列可以是以天为时间间隔的时间序列,该时间序列可以表示为x(d),其中d=1,2…,N天,或者是以小时为时间间隔的时间序列,该时间序列可以表示为x(h),其中h=1,2,…,M小时,或者还可以同时包括以天为时间间隔和以小时为时间间隔的时间序列。\n[0038] 在获得可以表征候选搜索词在历史搜索中出现特性的参数之后,搜索词推荐装置可以根据所获得的参数,从候选搜索词中确定向用户推荐的搜索词(即推荐搜索词)。\n[0039] 搜索词推荐装置根据所获得的参数,从候选搜索词中确定推荐搜索词的一种实施方式包括:\n[0040] 搜索词推荐装置可以利用所获取的参数为候选搜索词打分,获得候选搜索词的得分,之后根据候选搜索词的得分,确定会在用户的未来搜索过程中出现的搜索词,即确定向用户推荐的搜索词(即推荐搜索词)。其中,推荐搜索词是用户在未来搜索过程中可能使用的搜索词。其中,候选搜索词的得分一定程度上说明该候选搜索词在用户的未来搜索过程中出现概率的大小。获得候选搜索词的得分,相当于预测候选搜索词在用户的未来搜索过程中出现的概率。一般是候选搜索词的得分越高,意味着该候选搜索词在用户的未来搜索过程中出现的概率越高。\n[0041] 基于上述获取表征上述候选搜索词在历史搜索中出现特性的参数的可选实施方式,搜索词推荐装置利用所获取的参数为候选搜索词打分的过程可以是:\n[0042] 搜索词推荐装置根据上述第一时间序列、所时间序列、重复出现的次数和重复出现的平均时间间隔中的至少一个,为候选搜索词打分,获得候选搜索词的得分。\n[0043] 进一步,搜索词推荐装置可以利用时间序列周期性因子拆解算法,对第一时间序列进行拆解,获得周期性因子。该周期性因子体现了候选搜索词在历史搜索中出现的周期性,如果候选搜索词在历史搜索中出现的周期性并不强烈,则拆解出来的周期性因子会偏小。\n[0044] 搜索词推荐装置可以对第二时间序列进行处理,抽取第二时间序列的趋势向,该趋势向体现了候选搜索词在一段时间内爆发性出现的强度。如果这个趋势向是向爆发强度下降的趋势发展,则说明上述候选搜索词在用户未来的搜索过程中出现的可能性偏小,如果这一趋势向是平稳的或向爆发强度上升的趋势发展,则说明上述候选搜索词在用户未来的搜索过程中出现的可能性很大。\n[0045] 基于上述,搜索词推荐装置具体可以根据上述周期性因子、趋势向、候选搜索词在历史搜索中重复出现的次数和重复出现的平均时间间隔中的至少一个,为候选搜索词打分,获得候选搜索词的得分。\n[0046] 举例说明,如果周期性因子越大,该候选搜索词的得分越高;趋势向是平稳的或向爆发强度上升的趋势发展,该候选搜索词的得分越高;重复出现的次数越多,该候选搜索词的得分越高;重复出现的平均时间间隔越小,该候选搜索词的得分越高。\n[0047] 在一可选实施方式中,在确定候选搜索词的得分之后,搜索词推荐装置根据候选搜索词的得分,确定推荐搜索词的过程可以是:将候选搜索词中得分最高的搜索词作为推荐搜索词。具体的,搜索词推荐装置将各候选搜索词的得分进行比较,选择得分最高的候选搜索词作为推荐搜索词。\n[0048] 在另一可选实施方式中,在确定候选搜索词的得分之后,搜索词推荐装置根据候选搜索词的得分,确定推荐搜索词的过程可以是:将上述候选搜索词中得分大于分数阈值的搜索词作为推荐搜索词。在该实施方式中,预先设定分数阈值。搜索词推荐装置将每个候选搜索词的得分与该分数阈值进行比较,选择得分大于该分数阈值的候选搜索词作为推荐搜索词。\n[0049] 搜索词推荐装置根据所获得的参数,从候选搜索词中确定推荐搜索词的另一种实施方式包括:\n[0050] 搜索词推荐装置根据所获得的参数对候选搜索词进行排序,根据排序结果,从候选搜索词中确定推荐搜索词。举例说明,搜索词推荐装置可以根据所获得的参数,对候选搜索词进行由大到小的排序,则可以将排序结果中前N个候选搜索词作为推荐搜索词;N是自然数。\n[0051] 在本实施例中,利用用户的历史搜索词在历史搜索中的出现特性,预测历史搜索词在用户未来搜索过程中出现的概率,基于历史搜索词在未来搜索过程中出现的概率,从历史搜索词中向用户推荐搜索词,可以提升向用户推荐搜索词的准确度。\n[0052] 图2为本发明另一实施例提供的搜索词推荐方法的流程示意图。如图2所示,该方法包括:\n[0053] 201、利用预设的推荐系统对用户的历史搜索词进行分析,确定预推荐搜索词。\n[0054] 202、从上述历史搜索词中,确定与上述预推荐搜索词相同或相近的搜索词作为候选搜索词。\n[0055] 203、获取表征上述候选搜索词在历史搜索中出现特性的参数。\n[0056] 204、根据上述参数,从上述候选搜索词中确定推荐搜索词。在本实施例中,结合预设的推荐系统一起对用户的历史搜索词在未来搜索过程中出现的情况进行预测,提高向用户推荐搜索词的准确度。\n[0057] 本实施例中的步骤201和202可以看作是图1所示实施例中步骤101的一种具体实施方式。\n[0058] 具体的,搜索词推荐装置利用预设的推荐系统对用户的历史搜索词进行分析,确定预推荐搜索词。这里的推荐系统可以是协同滤波推荐(Collaborative Filtering recommendation)系统。其中,该推荐系统的使用过程是现有技术,则该推荐系统基于用户的历史搜索词,确定预推荐搜索词的过程可参见现有技术中该系统的使用过程,在此不再赘述。\n[0059] 其中,上述推荐系统所确定的预推荐搜索词可能是与历史搜索词相近但不完全相同的搜索词,属于新的搜索词,该预推荐搜索词有可能不会在用户未来搜索过程中出现。为了提高向用户推荐搜索词的准确度,搜索词推荐装置在获得预推荐搜索词后,从用户的历史搜索词中,确定与该预推荐搜索词相同或相近的搜索词作为候选搜索词,这样就会基于用户的历史搜索词向用户推荐在未来搜索过程中使用的搜索词,其准确度较高。\n[0060] 在获得候选搜索词之后的步骤可参见图1所示实施例的详细描述,在此不再赘述。\n[0061] 本实施例结合预设的推荐系统,先确定预推荐搜索词,进而基于预推荐搜索词从用户的历史搜索词中确定候选搜索词,再基于候选搜索词在历史搜索中出现的特性,最终从候选搜索词中确定向用户推荐的搜索词,可以进一步提高向用户推荐搜索词的准确度。\n[0062] 需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。\n[0063] 在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。\n[0064] 图3为本发明一实施例提供的搜索词推荐装置的结构示意图。如图3所示,该装置包括:第一确定模块31、获取模块32和第二确定模块33。\n[0065] 第一确定模块31,用于从用户的历史搜索词中,确定候选搜索词,历史搜索词是指用户的历史搜索中使用的搜索词。\n[0066] 获取模块32,与第一确定模块31连接,用于获取表征第一确定模块31获取的候选搜索词在历史搜索中出现特性的参数。\n[0067] 第二确定模块33,与获取模块32连接,用于根据获取模块32获取的参数,从第一确定模块31确定出的候选搜索词中确定推荐搜索词。\n[0068] 在一可选实施方式中,第一确定模块31具体可用于直接将用户的历史搜索词作为候选搜索词。或者,\n[0069] 第一确定模块31具体可用于利用预设的推荐系统对用户的历史搜索词进行分析,确定预推荐搜索词,从历史搜索词中,确定与预推荐搜索词相同或相近的搜索词作为候选搜索词。\n[0070] 在一可选实施方式中,获取模块32具体可用于获取以下至少一个参数:\n[0071] 表征候选搜索词在历史搜索中周期性出现特性的第一时间序列;\n[0072] 表征候选词在历史搜索中爆发性出现特性的第二时间序列;\n[0073] 候选搜索词在历史搜索中重复出现的次数;以及\n[0074] 候选搜索词在历史搜索中重复出现的平均时间间隔;\n[0075] 其中,爆发性出现是指出现频度大于频度阈值的情况。\n[0076] 在一可选实施方式中,第二确定模块33具体可用于根据获取模块32获取的参数对第一确定模块31确定的候选搜索词进行排序,根据排序结果,从候选搜索词中确定推荐搜索词。\n[0077] 在一可选实施方式中,第二确定模块33具体可用于根据获取模块32获取的参数为第一确定模块31确定的候选搜索词打分,获得候选搜索词的得分,根据候选搜索词的得分,确定推荐搜索词。\n[0078] 基于获取模块32具体获取的参数,第二确定模块33具体可用于根据获取模块32获取的第一时间序列、第二时间序列、重复出现的次数和重复出现的平均时间间隔中的至少一个,为候选搜索词打分,获得候选搜索词的得分,根据候选搜索词的得分,确定推荐搜索词。\n[0079] 在一可选实施方式中,第二确定模块33具体可用于根据获取模块32获取的参数为第一确定模块31确定的候选搜索词打分,获得候选搜索词的得分,将候选搜索词中得分最高的搜索词作为推荐搜索词。或者,\n[0080] 第二确定模块33具体可用于根据获取模块32获取的参数为第一确定模块31确定的候选搜索词打分,获得候选搜索词的得分,将候选搜索词中得分大于分数阈值的搜索词作为推荐搜索词。\n[0081] 本实施例提供的搜索词推荐装置,从用户的历史搜索词中确定候选搜索词,获取表征该候选搜索词在历史搜索词中出现特性的参数,基于所获取的参数从候选搜索词中确定推荐搜索词。本实施例提供的搜索词推荐装置利用用户的历史搜索词在历史搜索中的出现特性,预测历史搜索词在用户未来搜索过程中出现的概率,基于历史搜索词在未来搜索过程中出现的概率,从历史搜索词中向用户推荐搜索词,可以提升向用户推荐搜索词的准确度。\n[0082] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。\n[0083] 在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。\n[0084] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。\n[0085] 另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。\n[0086] 上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。\n[0087] 最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;\n而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
法律信息
- 2018-03-30
- 2014-12-10
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201410377857.5
申请日: 2014.08.01
- 2014-11-12
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2014-04-09
|
2012-10-09
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |