著录项信息
专利名称 | 推荐信息的方法和装置 |
申请号 | CN201210377563.3 | 申请日期 | 2012-10-08 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2014-04-09 | 公开/公告号 | CN103714084A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 腾讯科技(深圳)有限公司 | 申请人地址 | 广东省深圳市福田区赛格科技园2栋东403室
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 腾讯科技(深圳)有限公司 | 当前权利人 | 腾讯科技(深圳)有限公司 |
发明人 | 姚从磊;翟俊杰;王亮;温泉;李亚楠 |
代理机构 | 北京三高永信知识产权代理有限责任公司 | 代理人 | 王希刚 |
摘要
本发明公开了一种推荐信息的方法和装置,属于互联网领域。所述方法包括:获取指定用户在论坛中的搜索行为数据、浏览行为数据和对推荐内容的点击行为数据;分别对所述搜索行为数据、所述浏览行为数据和对推荐内容的点击行为数据进行预处理得到第一推荐结果、第二推荐结果和第三推荐结果;对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果根据权重进行分配整合,得到推荐给所述指定用户的推荐内容。本发明综合考虑了搜索行为数据、浏览行为数据和对推荐内容的点击行为数据,丰富了推荐所利用的数据,提升了推荐的准确性。
1.一种推荐信息的方法,其特征在于,所述方法包括:
获取指定用户在论坛中的搜索行为数据、浏览行为数据和对推荐内容的点击行为数据;
分别对所述搜索行为数据、所述浏览行为数据和对推荐内容的点击行为数据进行预处理得到第一推荐结果、第二推荐结果和第三推荐结果;
对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果根据权重进行分配整合,得到推荐给所述指定用户的推荐内容;
对所述搜索行为数据进行预处理得到第一推荐结果,包括:
过滤掉所述搜索行为数据中的噪音数据,得到去噪数据,其中,所述去噪数据包括所述指定用户在所述论坛中输入的查询字符串;
统计所述每个查询字符串Qi引发的点击帖子Ti的次数;
根据所述每个查询字符串Qi引发的点击所述帖子Ti的次数,计算所述帖子Ti被所述每个查询字符串引发的点击概率wi;
根据所述帖子Ti被所述每个查询字符串引发的点击概率wi,建立引发点击所述帖子Ti查询向量,其中所述查询向量为;
根据所述建立的每个帖子的查询向量计算任意两个帖子间的相关度,得到第一推荐结果。
2.根据权利要求1所述的方法,其特征在于,对所述浏览行为数据进行预处理得到第二推荐结果,包括:
对所述浏览行为数据进行分析,获取所述论坛中被所述指定用户浏览过的帖子;
根据所述被浏览的帖子所属的版面,将所述指定用户的浏览行为划分成至少一个父主题段;
计算每个父主题段中的帖子标题的文本相似度,获得所述每个父主题段下子主题段间的分界线;
根据所述子主题段间的分界线将相应的父主题段进行划分,得到至少一个子主题段;
根据每个子主题段建立所述指定用户的浏览行为矩阵,所述浏览行为矩阵中包括:子主题和所述论坛中的帖子在所述子主题中出现的次数;
对所述浏览行为矩阵进行相关度计算,得到第二推荐结果。
3.根据权利要求1所述的方法,其特征在于,对所述点击行为数据进行预处理得到第三推荐结果,包括:
对所述点击行为数据进行分析,获得所述论坛中每篇帖子的相关贴和所述每篇相关帖被点击的次数;
根据所述每篇相关帖被点击的次数和所述相关帖被点击的时间与当前时间的关系,对所述论坛中的相关贴进行重排序,使得被点击次数多的且被点击时间与所述当前时间的差值在预设范围之内的相关帖排在队列的前端,得到第三推荐结果。
4.根据权利要求1所述的方法,其特征在于,所述对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果根据权重进行分配整合,得到推荐给所述指定用户的推荐内容,包括:
分别计算所述论坛中的每一篇帖子的相关贴在所述第一推荐结果、所述第二推荐结果和所述第三推荐结果中出现的第一平均概率、第二平均概率和第三平均概率;
根据所述第一平均概率、第二平均概率和第三平均概率分别确定所述第一推荐结果的权重、所述第二推荐结果的权重和所述第三推荐结果的权重;
基于所述第一推荐结果的权重、所述第二推荐结果的权重和所述第三推荐结果的权重对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果进行分配整合,得到推荐给所述指定用户的推荐内容;或,
根据预先设定的所述第一推荐结果的第一权重、所述第二推荐结果的第二权重和所述第三推荐结果的第三权重,对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果进行分配整合,得到推荐给所述指定用户的推荐内容。
5.一种推荐信息的装置,其特征在于,所述装置包括:
获取模块,用于获取指定用户在论坛中的搜索行为数据、浏览行为数据和对推荐内容的点击行为数据;
预处理模块,用于分别对所述搜索行为数据、所述浏览行为数据和对推荐内容的点击行为数据进行预处理得到第一推荐结果、第二推荐结果和第三推荐结果;
整合模块,用于对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果进行整合,得到推荐给所述指定用户的推荐内容;
所述预处理模块,包括:
过滤单元,用于过滤掉所述搜索行为数据中的噪音数据,得到去噪数据,其中,所述去噪数据包括所述指定用户在所述论坛中输入的查询字符串;
统计单元,用于统计所述每个查询字符串Qi引发的点击帖子Ti的次数;
第一计算单元,用于根据所述每个查询字符串Qi引发的点击所述帖子Ti的次数,计算所述帖子Ti被所述每个查询字符串引发的点击概率wi;
第一建立单元,用于根据所述帖子Ti被所述每个查询字符串引发的点击概率wi,建立引发点击所述帖子Ti查询向量,其中所述查询向量为;
第二计算单元,用于根据所述建立的每个帖子的查询向量计算任意两个帖子间的相关度,得到第一推荐结果。
6.根据权利要求5所述的装置,其特征在于,所述预处理模块,包括:
获取单元,用于对所述浏览行为数据进行分析,获取所述论坛中被所述指定用户浏览过的帖子;
第一划分单元,用于根据所述被浏览的帖子所属的版面,将所述指定用户的浏览行为划分成至少一个父主题段;
第三计算单元,用于计算每个父主题段中的帖子标题的文本相似度,获得所述每个父主题段下子主题段间的分界线;
第二划分单元,用于根据所述子主题段间的分界线将相应的父主题段进行划分,得到至少一个子主题段;
第二建立单元,用于根据每个子主题段建立所述指定用户的浏览行为矩阵,所述浏览行为矩阵中包括:子主题和所述论坛中的帖子在所述子主题中出现的次数;
第四计算单元,用于对所述浏览行为矩阵进行相关度计算,得到第二推荐结果。
7.根据权利要求5所述的装置,其特征在于,所述预处理模块,包括:
分析单元,用于对所述点击行为数据进行分析,获得所述论坛中每篇帖子的相关贴和所述每篇相关帖被点击的次数;
重排序单元,用于根据所述每篇相关帖被点击的次数和所述相关帖被点击的时间与当前时间的关系,对所述论坛中的相关贴进行重排序,使得被点击次数多的且被点击时间与所述当前时间的差值在预设范围之内的相关帖排在队列的前端,得到第三推荐结果。
8.根据权利要求5所述的装置,其特征在于,所述整合模块,包括:
计算单元,用于分别计算所述论坛中的每一篇帖子的相关贴在所述第一推荐结果、所述第二推荐结果和所述第三推荐结果中出现的第一平均概率、第二平均概率和第三平均概率;
确定单元,用于根据所述第一平均概率、第二平均概率和第三平均概率分别确定所述第一推荐结果的权重、所述第二推荐结果的权重和所述第三推荐结果的权重;
第一整合单元,用于基于所述第一推荐结果的权重、所述第二推荐结果的权重和所述第三推荐结果的权重对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果进行整合,得到推荐给所述指定用户的推荐内容;或,
第二整合单元,用于根据预先设定的所述第一推荐结果的第一权重、所述第二推荐结果的第二权重和所述第三推荐结果的第三权重,对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果进行分配整合,得到推荐给所述指定用户的推荐内容。
推荐信息的方法和装置\n技术领域\n[0001] 本发明涉及互联网领域,特别涉及一种推荐信息的方法和装置。\n背景技术\n[0002] 随着网络的发展,出现了论坛社区。论坛社区中聚合了一群兴趣相似的用户,在各个版面中讨论各种最近热门的话题。在论坛中,用户最基本的目标是阅读内容获取信息。所以为了给用户提供更多的内容,在用户阅读一篇内容时,自动为用户推荐主题相关的内容,可以方便用户获取相关信息,并增加网站的黏性和点击率。\n[0003] 现有的一种内容推荐方法是基于用户浏览行为的推荐方法,该方法假设浏览相同内容的用户具有相同的兴趣,对论坛中用户的浏览行为进行分析,建立用户/浏览内容的二维矩阵,在此矩阵上利用协同过滤等算法计算内容间的关联程度,从而得到推荐结果,将推荐结果推荐给用户。\n[0004] 在实现本发明的过程中,发明人发现现有技术至少存在以下问题:\n[0005] 在一个论坛中,同一个用户的兴趣可能是多方面的,用户的浏览行为可能涵盖了不同主题的内容,现有技术中简单假设浏览相同内容的用户具有相同的兴趣,会导致不同主题的内容被认为是主题相近的,这样得到的推荐结果不一定是用户感兴趣的内容,降低了推荐给用户的为内容为用户感兴趣的内容的准确性。且,当论坛的数据量相对较少,并且用户的浏览行为数据规模也相对较小时,会造成用户/浏览内容二维矩阵比较稀疏,严重影响最后的推荐效果,所以单纯的通过用户的浏览行为得到的推荐结果对于用户而言不一定准确,影响论坛社区对用户推荐结果的准确性。\n发明内容\n[0006] 为了提高论坛中推荐内容的准确性,本发明实施例提供了一种推荐信息的方法和装置。所述技术方案如下:\n[0007] 一方面,提供了一种推荐信息的方法,所述方法包括:\n[0008] 获取指定用户在论坛中的搜索行为数据、浏览行为数据和对推荐内容的点击行为数据;\n[0009] 分别对所述搜索行为数据、所述浏览行为数据和对推荐内容的点击行为数据进行预处理得到第一推荐结果、第二推荐结果和第三推荐结果;\n[0010] 对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果根据权重进行分配整合,得到推荐给所述指定用户的推荐内容。\n[0011] 所述对所述搜索行为数据进行预处理得到第一推荐结果,包括:\n[0012] 过滤掉所述搜索行为数据中的噪音数据,得到去噪数据,其中,所述去噪数据包括所述指定用户在所述论坛中输入的查询字符串;\n[0013] 统计所述每个查询字符串Qi引发的点击帖子Ti的次数;\n[0014] 根据所述每个查询字符串Qi引发的点击所述帖子Ti的次数,计算所述帖子Ti被所述每个查询字符串引发的点击概率wi;\n[0015] 根据所述帖子Ti被所述每个查询字符串引发的点击概率wi,建立引发点击所述帖子Ti查询向量,其中所述查询向量为;\n[0016] 根据所述建立的每个帖子的查询向量计算任意所述任意两个帖子间的相关度,得到第一推荐结果。\n[0017] 所述对所述浏览行为数据进行预处理得到第二推荐结果,包括:\n[0018] 对所述浏览行为数据进行分析,获取所述论坛中被所述指定用户浏览过的帖子;\n[0019] 根据所述被浏览的帖子所属的版面,将所述指定用户的浏览行为划分成至少一个父主题段;\n[0020] 计算所述每个父主题段中的帖子标题的文本相似度,获得所述每个父主题段下子主题段间的分界线;\n[0021] 根据所述子主题段间的分界线将所述相应的父主题段进行划分,得到至少一个子主题段;\n[0022] 根据所述每个子主题段建立所述指定用户的浏览行为矩阵,所述浏览行为矩阵中包括:子主题和所述论坛中的帖子在所述子主题中出现的次数;\n[0023] 对所述浏览行文矩阵进行相关度计算,得到第二推荐结果。\n[0024] 所述对所述点击行为数据进行预处理得到第三推荐结果,包括:\n[0025] 对所述点击行为数据进行分析,获得所述论坛中每篇帖子的相关贴和所述每篇相关帖被点击的次数;\n[0026] 根据所述每篇相关帖被点击的次数和所述相关帖被点击的时间与当前时间的关系,对所述论坛中的相关贴进行重排序,使得被点击次数多的且被点击时间与所述当前时间的差值在预设范围之内的相关帖排在队列的前端,得到第三推荐结果。\n[0027] 所述对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果根据权重进行分配整合,得到推荐给所述指定用户的推荐内容,包括:\n[0028] 分别计算所述论坛中的每一篇帖子的相关贴在所述第一推荐结果、所述第二推荐结果和所述第三推荐结果中出现的第一平均概率、第二平均概率和第三平均概率;\n[0029] 根据所述第一平均概率、第二平均概率和第三平均概率分别确定所述第一推荐结果的权重、所述第二推荐结果的权重和所述第三推荐结果的权重;\n[0030] 基于所述第一推荐结果的权重、所述第二推荐结果的权重和所述第三推荐结果的权重对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果进行分配整合,得到推荐给所述指定用户的推荐内容;或,\n[0031] 根据预先设定的所述第一推荐结果的第一权重、所述第二推荐结果的第二权重和所述第三推荐结果的第三权重,对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果进行分配整合,得到推荐给所述指定用户的推荐内容。\n[0032] 另一方面,提供了一种推荐信息的装置,所述装置包括:\n[0033] 获取模块,用于获取指定用户在论坛中的搜索行为数据、浏览行为数据和对推荐内容的点击行为数据;\n[0034] 预处理模块,用于分别对所述搜索行为数据、所述浏览行为数据和对推荐内容的点击行为数据进行预处理得到第一推荐结果、第二推荐结果和第三推荐结果;\n[0035] 整合模块,用于对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果根据权重进行分配整合,得到推荐给所述指定用户的推荐内容。\n[0036] 所述预处理模块,包括:\n[0037] 过滤单元,用于过滤掉所述搜索行为数据中的噪音数据,得到去噪数据,其中,所述去噪数据包括所述指定用户在所述论坛中输入的查询字符串;\n[0038] 统计单元,用于统计所述每个查询字符串Qi引发的点击帖子Ti的次数;\n[0039] 第一计算单元,用于根据所述每个查询字符串Qi引发的点击所述帖子Ti的次数,计算所述帖子Ti被所述每个查询字符串引发的点击概率wi;\n[0040] 第一建立单元,用于根据所述帖子Ti被所述每个查询字符串引发的点击概率wi,建立引发点击所述帖子Ti查询向量,其中所述查询向量为;\n[0041] 第二计算单元,用于根据所述建立的每个帖子的查询向量计算任意所述任意两个帖子间的相关度,得到第一推荐结果。\n[0042] 所述预处理模块,包括:\n[0043] 获取单元,用于对所述浏览行为数据进行分析,获取所述论坛中被所述指定用户浏览过的帖子;\n[0044] 第一划分单元,用于根据所述被浏览的帖子所属的版面,将所述指定用户的浏览行为划分成至少一个父主题段;\n[0045] 第三计算单元,用于计算所述每个父主题段中的帖子标题的文本相似度,获得所述每个父主题段下子主题段间的分界线;\n[0046] 第二划分单元,用于根据所述子主题段间的分界线将所述相应的父主题段进行划分,得到至少一个子主题段;\n[0047] 第二建立单元,用于根据所述每个子主题段建立所述指定用户的浏览行为矩阵,所述浏览行为矩阵中包括:子主题和所述论坛中的帖子在所述子主题中出现的次数;\n[0048] 第四计算单元,用于对所述浏览行文矩阵进行相关度计算,得到第二推荐结果。\n[0049] 所述预处理模块,包括:\n[0050] 分析单元,用于对所述点击行为数据进行分析,获得所述论坛中每篇帖子的相关贴和所述每篇相关帖被点击的次数;\n[0051] 重排序单元,用于根据所述每篇相关帖被点击的次数和所述相关帖被点击的时间与当前时间的关系,对所述论坛中的相关贴进行重排序,使得被点击次数多的且被点击时间与所述当前时间的差值在预设范围之内的相关帖排在队列的前端,得到第三推荐结果。\n[0052] 所述整合模块,包括:\n[0053] 计算单元,用于分别计算所述论坛中的每一篇帖子的相关贴在所述第一推荐结果、所述第二推荐结果和所述第三推荐结果中出现的第一平均概率、第二平均概率和第三平均概率;\n[0054] 确定单元,用于根据所述第一平均概率、第二平均概率和第三平均概率分别确定所述第一推荐结果的权重、所述第二推荐结果的权重和所述第三推荐结果的权重;\n[0055] 第一整合单元,用于基于所述第一推荐结果的权重、所述第二推荐结果的权重和所述第三推荐结果的权重对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果进行整合,得到推荐给所述指定用户的推荐内容;或,\n[0056] 第二整合单元,用于根据预先设定的所述第一推荐结果的第一权重、所述第二推荐结果的第二权重和所述第三推荐结果的第三权重,对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果进行分配整合,得到推荐给所述指定用户的推荐内容。\n[0057] 本发明实施例提供的技术方案带来的有益效果是:获取指定用户在论坛中的搜索行为数据、浏览行为数据和对推荐内容的点击行为数据;分别对所述搜索行为数据、所述浏览行为数据和对推荐内容的点击行为数据进行预处理得到第一推荐结果、第二推荐结果和第三推荐结果;对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果根据权重进行分配整合,得到推荐给所述指定用户的推荐内容。其中综合考虑了搜索行为数据、浏览行为数据和对推荐内容的点击行为数据,丰富了推荐所利用的数据,提升了推荐的准确性。\n附图说明\n[0058] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。\n[0059] 图1是本发明实施例一提供的一种推荐信息的方法流程图;\n[0060] 图2是本发明实施例二提供的一种推荐信息的方法流程图;\n[0061] 图3是本发明实施例三提供的一种推荐信息的装置结构示意图;\n[0062] 图4是本发明实施例三提供的另一种推荐信息的装置结构示意图。\n具体实施方式\n[0063] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。\n[0064] 实施例一\n[0065] 参见图1,本实施例中提供了一种推荐信息的方法,包括:\n[0066] 101、获取指定用户在论坛中的搜索行为数据、浏览行为数据和对推荐内容的点击行为数据;\n[0067] 102、分别对所述搜索行为数据、所述浏览行为数据和对推荐内容的点击行为数据进行预处理得到第一推荐结果、第二推荐结果和第三推荐结果;\n[0068] 103、对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果根据权重进行分配整合,得到推荐给所述指定用户的推荐内容。\n[0069] 其中,所述对所述搜索行为数据进行预处理得到第一推荐结果,包括:\n[0070] 过滤掉所述搜索行为数据中的噪音数据,得到去噪数据,其中,所述去噪数据包括所述指定用户在所述论坛中输入的查询字符串;\n[0071] 统计所述每个查询字符串Qi引发的点击帖子Ti的次数;\n[0072] 根据所述每个查询字符串Qi引发的点击所述帖子Ti的次数,计算所述帖子Ti被所述每个查询字符串引发的点击概率wi;\n[0073] 根据所述帖子Ti被所述每个查询字符串引发的点击概率wi,建立引发点击所述帖子Ti查询向量,其中所述查询向量为;\n[0074] 根据所述建立的每个帖子的查询向量计算任意所述任意两个帖子间的相关度,得到第一推荐结果。\n[0075] 本实施例中,所述对所述浏览行为数据进行预处理得到第二推荐结果,包括:\n[0076] 对所述浏览行为数据进行分析,获取所述论坛中被所述指定用户浏览过的帖子;\n[0077] 根据所述被浏览的帖子所属的版面,将所述指定用户的浏览行为划分成至少一个父主题段;\n[0078] 计算所述每个父主题段中的帖子标题的文本相似度,获得所述每个父主题段下子主题段间的分界线;\n[0079] 根据所述子主题段间的分界线将所述相应的父主题段进行划分,得到至少一个子主题段;\n[0080] 根据所述每个子主题段建立所述指定用户的浏览行为矩阵,所述浏览行为矩阵中包括:子主题和所述论坛中的帖子在所述子主题中出现的次数;\n[0081] 对所述浏览行文矩阵进行相关度计算,得到第二推荐结果。\n[0082] 其中,所述对所述点击行为数据进行预处理得到第三推荐结果,包括:\n[0083] 对所述点击行为数据进行分析,获得所述论坛中每篇帖子的相关贴和所述每篇相关帖被点击的次数;\n[0084] 根据所述每篇相关帖被点击的次数和所述相关帖被点击的时间与当前时间的关系,对所述论坛中的相关贴进行重排序,使得被点击次数多的且被点击时间与所述当前时间的差值在预设范围之内的相关帖排在队列的前端,得到第三推荐结果。\n[0085] 可选地,所述对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果根据权重进行分配整合,得到推荐给所述指定用户的推荐内容,包括:\n[0086] 分别计算所述论坛中的每一篇帖子的相关贴在所述第一推荐结果、所述第二推荐结果和所述第三推荐结果中出现的第一平均概率、第二平均概率和第三平均概率;\n[0087] 根据所述第一平均概率、第二平均概率和第三平均概率分别确定所述第一推荐结果的权重、所述第二推荐结果的权重和所述第三推荐结果的权重;\n[0088] 基于所述第一推荐结果的权重、所述第二推荐结果的权重和所述第三推荐结果的权重对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果进行分配整合,得到推荐给所述指定用户的推荐内容;或,\n[0089] 根据预先设定的所述第一推荐结果的第一权重、所述第二推荐结果的第二权重和所述第三推荐结果的第三权重,对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果进行分配整合,得到推荐给所述指定用户的推荐内容。\n[0090] 本实施例的有益效果是:获取指定用户在论坛中的搜索行为数据、浏览行为数据和对推荐内容的点击行为数据;分别对所述搜索行为数据、所述浏览行为数据和对推荐内容的点击行为数据进行预处理得到第一推荐结果、第二推荐结果和第三推荐结果;对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果进行整合,得到推荐给所述指定用户的推荐内容。其中综合考虑了搜索行为数据、浏览行为数据和对推荐内容的点击行为数据,丰富了推荐所利用的数据,提升了推荐的准确性。\n[0091] 实施例二\n[0092] 本发明实施例提供了一种推荐信息的方法,在论坛中,用户的基本行为包括:浏览行为、搜索行为和对推荐内容的点击行为,本实施例中建立搜索行为模型、浏览行为模型和推荐点击行为模型,通过三个模型分别对论坛用户的三种行为数据进行分析,得到三种不同的推荐结果,最后将这三种不同的推荐结果整合,得到最终的推荐内容。\n[0093] 参见图2,方法流程包括:\n[0094] 201、获取指定用户在论坛中的搜索行为数据,对所述搜索行为数据进行预处理得到第一推荐结果。\n[0095] 本实施例中,论坛可以是网络上的任意一个论坛社区,指定用户可以是论坛中的任意一个用户,对此本实施例不做具体限定。\n[0096] 本实施例在搜索行为建模中,对论坛中的数据进行分析,获取论坛中指定用户的搜索行为数据,其中,搜索行为数据包括搜索点击行为数据,首先对搜索点击行为数据进行预处理,过滤掉恶意点击的噪音数据;然后建立查询字符串到被点击帖子的映射;最后基于这种映射关系,将帖子表示为查询的向量,进而计算帖子的主题相关度,得到推荐结果。其中噪音数据是指非论坛用户的正常操作行为数据,包括机器人爬取和恶意点击等的异常数据,对此本实施例不做具体限定。噪音数据在时间上的分布具有一定的模式,比如一个查询的前几页搜索结果均在很短时间内被同一用户点击,则该点击事件即为噪音数据,利用这些模式可以过滤掉噪音数据,得到的干净的去噪数据。\n[0097] 本步骤中,具体的对所述搜索行为数据进行预处理得到第一推荐结果,包括:\n[0098] 过滤掉所述搜索行为数据中的噪音数据,得到去噪数据,其中,所述去噪数据包括所述指定用户在所述论坛中输入的所有查询字符串;\n[0099] 统计所述每个查询字符串Qi引发的点击帖子Ti的次数,其中c(Qi,T)为查询Qi引发点击帖子T的次数;\n[0100] 根据所述每个查询字符串Qi引发的点击所述帖子Ti的次数,计算所述帖子Ti被所述每个查询字符串引发的点击概率wi,wi=c(Qi,T)/(c(Q1,T)+c(Q2,T)+...+c(Qn,T)),其中n为查询字符串的总数;\n[0101] 所述帖子Ti被所述每个查询字符串引发的点击概率wi,建立引发点击所述帖子Ti查询向量,其中所述查询向量为;\n[0102] 根据所述建立的每个帖子的查询向量计算任意所述任意两个帖子间的相关度,得到第一推荐结果。\n[0103] 本实施例中,当指定用户用同一个查询串来进行搜索时,会输出不同的搜索结果,指定用户可能会在每次搜索时点击不同的帖子,所以可以根据查询字符串对应的帖子点击数据,把每一篇帖子表示为引发点击该帖子的查询的向量。对于一篇帖子T,其查询向量为:\nT=。这样每一篇帖子都可以表示为查询的向量。对于两篇帖子Ti和Ti可以利用它们对应的查询向量的相似度来衡量它们的主题相关度。如Ti=,Tj=,相关度计算一般采用余弦距离,即两个向量的夹角余弦,即其相似度为Sim=(Ti*Tj)/(|Ti|Tj|)。\n[0104] 本实施例中在计算查询向量相似度时,可以利用经典的向量空间模型来进行计算,当然也可以采用其它现有技术中计算向量相似度的方法,对此本实施例不做具体限定。\n[0105] 202、获取指定用户在论坛中的浏览行为数据,对所述浏览行为数据进行预处理得到第二推荐结果。\n[0106] 本步骤中,在用户浏览行为建模中,需要首先分析指定用户在论坛中的浏览行为的特点,根据特点对用户浏览行为进行预处理,使得处理过后的数据可以真实反映用户的兴趣和帖子内容之间的关系。在具体实现过程中,一方面,现有的论坛组织形式中,论坛中的内容是按版面来组织的,每个版面的帖子内容往往是围绕一个大的主题进行的,在这一大的主题下,不同的帖子围绕一些小的主题进行展开和讨论。例如,大的主题为“文化消费”,则在“文化消费”的主题下还会有好多小的主题,不同用户根据自己感兴趣的小的主题,再进一步进行讨论。另一方面,用户在浏览论坛时是以版面为单元进行浏览的,并且在用户浏览同一版面的帖子时,由于用户兴趣的持续性,即便浏览的帖子属于不同的小的主题,但它们的主题分布还是连续的。\n[0107] 基于上述论坛用户浏览行为的特点,对于一个用户的一段连续时间的浏览行为,具体的,对所述浏览行为数据进行预处理得到第二推荐结果,包括:\n[0108] 对所述浏览行为数据进行分析,获取所述论坛中被所述指定用户浏览过的帖子;\n[0109] 根据所述被浏览的帖子所属的版面,将所述指定用户的浏览行为划分成至少一个父主题段;\n[0110] 计算所述每个父主题段中的帖子标题的文本相似度,获得所述每个父主题段下子主题段间的分界线;\n[0111] 根据所述子主题段间的分界线将所述相应的父主题段进行划分,得到至少一个子主题段;\n[0112] 根据所述每个子主题段建立所述指定用户的浏览行为矩阵,所述浏览行为矩阵中包括:子主题和所述论坛中的帖子在所述子主题中出现的次数;\n[0113] 对所述浏览行文矩阵进行相关度计算,得到第二推荐结果。\n[0114] 本步骤中,按照被浏览帖子所属的版面将浏览行为划分为大的父主题段;在每一个父主题段中,对帖子标题的文本相似度进行计算,找到基本主题段(子主题段)间的分界线,进而将每个父主题段分为多个子主题段。这样每个子主题段内的帖子都是属于同一个主题的,它们可以反映用户的明确单一的兴趣。然后,对于每个论坛近期的所有用户浏览行为建立一个二维矩阵:一个维度为每个用户的子主题段,其中,如果一个用户Ui的浏览行为中包含Ni个基本主题段,那么M个用户对应的这一维的大小就为N1+N2+...+Ni+...+NM;另一个维度为帖子维度,矩阵元素的值代表一篇帖子在一个子主题段中出现的次数。\n[0115] 如4个主题,3个用户,其矩阵为:\n[0116]\n[0117] 其中矩阵元素为1表示用户浏览过对应的主题,0则为未浏览过。主题1的向量描述即为其对应的列<1,0,1>,主题2的向量描述为<1,1,0>。\n[0118] 本实施例中,将建立的二维矩阵作为输入,利用经典协同过滤算法中item-to-item的方法计算帖子之间的相关度,得到第二推荐结果。其中协同过滤算法属于现有技术,对此本实施例不再赘述。\n[0119] 203、获取指定用户在论坛中的对推荐内容的点击行为数据,对所述点击行为数据进行预处理得到第三推荐结果。\n[0120] 在相关帖推荐中,对于一个帖子,系统会推荐给用户若干篇相关帖子,本实施例中获得指定用户对这些被推荐帖子的点击情况,根据相关贴的点击情况为推荐点击行为建模。其中,如果将每个帖子看作是查询,将它的相关帖看作是查询结果,那么推荐内容点击行为数据可以等同于相关性排序中的查询结果点击数据。本实施例中利用点击模型中的经典算法对相关帖进行重排序,达到更好的效果。\n[0121] 具体的,对所述点击行为数据进行预处理得到第三推荐结果,包括:\n[0122] 对所述点击行为数据进行分析,获得所述论坛中每篇帖子的相关贴和所述每篇相关帖被点击的次数;\n[0123] 根据所述每篇相关帖被点击的次数和所述相关帖被点击的时间与当前时间的关系,对所述论坛中的相关贴进行重排序,使得被点击次数多的且被点击时间与所述当前时间的差值在预设范围之内的相关帖排在队列的前端,得到第三推荐结果。\n[0124] 本实施例中,一方面根据相关贴的点击次数进行排序,另一方面,考虑到论坛数据的强时效性特点,需要对不同时间的推荐点击数据区别处理,使得被点击时间与当前时间的差值在预设范围内的帖子排在队列的前端。其中队列是指推荐结果的队列,在得到推荐结果后,会将推荐结果放入队列中,等待推荐。预设范围可以是5分钟、10分钟、20分钟、30分钟等,对此本实施例不做具体限定。\n[0125] 值得说明的是,在具体的执行过程中,步骤201-203并没有指定的先后顺序,可以是并列执行,也可以是先后执行,具体的执行顺序本实施例不做具体限定。\n[0126] 204、对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果根据权重进行分配整合,得到推荐给所述指定用户的推荐内容。\n[0127] 在利用上述三种用户行为数据进行建模后,每个建模模块都会输出对应的推荐结果,需要将这三种推荐结果进行整合。其中一种整合方法是采用投票机制,具体的基于投票机制对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果根据权重进行分配整合,得到推荐给所述指定用户的推荐内容,包括:\n[0128] 分别计算所述论坛中的每一篇帖子的相关贴在所述第一推荐结果、所述第二推荐结果和所述第三推荐结果中出现的第一平均概率、第二平均概率和第三平均概率;\n[0129] 根据所述第一平均概率、第二平均概率和第三平均概率分别确定所述第一推荐结果的权重、所述第二推荐结果的权重和所述第三推荐结果的权重;\n[0130] 基于所述第一推荐结果的权重、所述第二推荐结果的权重和所述第三推荐结果的权重对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果进行分配整合,得到推荐给所述指定用户的推荐内容。\n[0131] 当然本实施例中也不局限于使用投票机制一种方法,本实施例中还可以根据不同用户行为可能对推荐结果产生影响的大小,预先赋予三种推荐结果不同的权重,其中,推荐点击行为建模输出的推荐结果权重最高,浏览行为建模输出的结果权重次之,搜索行为建模输出的结果权重最低。然后结合不同的权重将三种推荐结果整合起来,得到最终的推荐内容。所以可选地,对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果根据权重进行分配整合,得到推荐给所述指定用户的推荐内容,包括:根据预先设定的所述第一推荐结果的第一权重、所述第二推荐结果的第二权重和所述第三推荐结果的第三权重,对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果进行分配整合,得到推荐给所述指定用户的推荐内容。\n[0132] 本实施例中,在结果整合中,选择合适的时机更新线上推荐系统的数据,以达到良好的推荐效果。由于用户行为数据的积累需要时间,并且基于三种用户行为的建模计算都需要时间,本实施例中分析每个论坛的用户活跃周期,找到每个论坛用户不活跃的时间段,在用户不活跃的时间段中进行建模计算和结果更新。例如,再对某个论坛进行分析后发现,在凌晨1:00到早晨9:00之间的时间段里,用户的行为非常少,所以就选择在此时间段中进行计算和更新。\n[0133] 本实施例的有益效果包括:获取指定用户在论坛中的搜索行为数据、浏览行为数据和对推荐内容的点击行为数据;分别对所述搜索行为数据、所述浏览行为数据和对推荐内容的点击行为数据进行预处理得到第一推荐结果、第二推荐结果和第三推荐结果;对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果根据权重进行分配整合,得到推荐给所述指定用户的推荐内容。其中综合考虑了搜索行为数据、浏览行为数据和对推荐内容的点击行为数据,丰富了推荐所利用的数据,提升了推荐的准确性。\n[0134] 实施例三\n[0135] 参见图3,本实施例中提供了一种推荐信息的装置,包括:获取模块301、预处理模块302和整合模块303。\n[0136] 获取模块301,用于获取指定用户在论坛中的搜索行为数据、浏览行为数据和对推荐内容的点击行为数据;\n[0137] 预处理模块302,用于分别对所述搜索行为数据、所述浏览行为数据和对推荐内容的点击行为数据进行预处理得到第一推荐结果、第二推荐结果和第三推荐结果;\n[0138] 整合模块303,用于对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果根据权重进行分配整合,得到推荐给所述指定用户的推荐内容。\n[0139] 其中,参见图4,所述预处理模块302,包括:\n[0140] 过滤单元302a,用于过滤掉所述搜索行为数据中的噪音数据,得到去噪数据,其中,所述去噪数据包括所述指定用户在所述论坛中输入的查询字符串;\n[0141] 统计单元302b,用于统计所述每个查询字符串Qi引发的点击帖子Ti的次数;\n[0142] 第一计算单元302c,用于根据所述每个查询字符串Qi引发的点击所述帖子Ti的次数,计算所述帖子Ti被所述每个查询字符串引发的点击概率wi;\n[0143] 第一建立单元302d,用于根据所述帖子Ti被所述每个查询字符串引发的点击概率wi,建立引发点击所述帖子Ti查询向量,其中所述查询向量为;\n[0144] 第二计算单元302f,用于根据所述建立的每个帖子的查询向量计算任意所述任意两个帖子间的相关度,得到第一推荐结果。\n[0145] 其中,参见图4,所述预处理模块302,包括:\n[0146] 获取单元302a′,用于对所述浏览行为数据进行分析,获取所述论坛中被所述指定用户浏览过的帖子;\n[0147] 第一划分单元302b′,用于根据所述被浏览的帖子所属的版面,将所述指定用户的浏览行为划分成至少一个父主题段;\n[0148] 第三计算单元302c′,用于计算所述每个父主题段中的帖子标题的文本相似度,获得所述每个父主题段下子主题段间的分界线;\n[0149] 第二划分单元302d′,用于根据所述子主题段间的分界线将所述相应的父主题段进行划分,得到至少一个子主题段;\n[0150] 第二建立单元302e′,用于根据所述每个子主题段建立所述指定用户的浏览行为矩阵,所述浏览行为矩阵中包括:子主题和所述论坛中的帖子在所述子主题中出现的次数;\n[0151] 第四计算单元302f′,用于对所述浏览行文矩阵进行相关度计算,得到第二推荐结果。\n[0152] 参见图4,所述预处理模块302,包括:\n[0153] 分析单元302a″,用于对所述点击行为数据进行分析,获得所述论坛中每篇帖子的相关贴和所述每篇相关帖被点击的次数;\n[0154] 重排序单元302b″,用于根据所述每篇相关帖被点击的次数和所述相关帖被点击的时间与当前时间的关系,对所述论坛中的相关贴进行重排序,使得被点击次数多的且被点击时间与所述当前时间的差值在预设范围之内的相关帖排在队列的前端,得到第三推荐结果。\n[0155] 可选地,参见图4,所述整合模块303,包括:\n[0156] 计算单元303a,用于分别计算所述论坛中的每一篇帖子的相关贴在所述第一推荐结果、所述第二推荐结果和所述第三推荐结果中出现的第一平均概率、第二平均概率和第三平均概率;\n[0157] 确定单元303b,用于根据所述第一平均概率、第二平均概率和第三平均概率分别确定所述第一推荐结果的权重、所述第二推荐结果的权重和所述第三推荐结果的权重;\n[0158] 第一整合单元303c,用于基于所述第一推荐结果的权重、所述第二推荐结果的权重和所述第三推荐结果的权重对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果进行整合,得到推荐给所述指定用户的推荐内容;或,\n[0159] 第二整合单元303d,根据预先设定的所述第一推荐结果的第一权重、所述第二推荐结果的第二权重和所述第三推荐结果的第三权重,对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果进行分配整合,得到推荐给所述指定用户的推荐内容。\n[0160] 本实施例的有益效果是:获取指定用户在论坛中的搜索行为数据、浏览行为数据和对推荐内容的点击行为数据;分别对所述搜索行为数据、所述浏览行为数据和对推荐内容的点击行为数据进行预处理得到第一推荐结果、第二推荐结果和第三推荐结果;对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果根据权重进行分配整合,得到推荐给所述指定用户的推荐内容。其中综合考虑了搜索行为数据、浏览行为数据和对推荐内容的点击行为数据,丰富了推荐所利用的数据,提升了推荐的准确性。\n[0161] 需要说明的是:上述实施例提供的推荐信息的装置中,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。\n[0162] 另外,上述实施例提供的推荐信息的装置与推荐信息的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。\n[0163] 上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。\n[0164] 本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。\n[0165] 以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
法律信息
- 2018-04-03
- 2015-06-10
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201210377563.3
申请日: 2012.10.08
- 2014-04-09
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2012-01-25
|
2011-08-03
| | |
2
| |
2012-07-11
|
2012-02-10
| | |
3
| |
2012-07-04
|
2010-12-16
| | |
4
| | 暂无 |
2009-06-15
| | |
5
| |
2011-12-28
|
2010-06-28
| | |
6
| |
2012-02-08
|
2011-10-08
| | |
7
| |
2010-12-22
|
2009-06-15
| | |
8
| |
2012-10-03
|
2012-05-16
| | |
9
| |
2011-02-09
|
2010-09-30
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |