著录项信息
专利名称 | 建立兴趣模型的方法及装置 |
申请号 | CN201210279366.8 | 申请日期 | 2012-08-07 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2012-12-19 | 公开/公告号 | CN102831199A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 北京奇虎科技有限公司;奇智软件(北京)有限公司 | 申请人地址 | 北京市西城区新街口外大街28号D座112室(德胜园区)
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 北京奇虎科技有限公司,奇智软件(北京)有限公司 | 当前权利人 | 北京奇虎科技有限公司,奇智软件(北京)有限公司 |
发明人 | 周浩;邓夏玮 |
代理机构 | 北京市浩天知识产权代理事务所(普通合伙) | 代理人 | 刘云贵 |
摘要
本发明公开了一种建立兴趣模型的方法及装置,涉及网络技术领域。其中方法包括:通过调用各用户端设备的浏览器记录的浏览历史数据和/或收藏夹数据,以及采集各用户端设备使用搜索引擎时的搜索关键词,获取数据样本;从数据样本中提取特征词,并获取各用户端设备访问特征词的频次;根据所有用户端设备的特征词,得到各级兴趣类别,每级兴趣类别包括多个兴趣分类;对于其中一个用户端设备,获得每级兴趣类别中每个兴趣分类的兴趣值,从而建立该用户端设备的兴趣模型。本发明充分利用了浏览器和搜索引擎提供的大量的信息资源,有效地反映出用户的兴趣,根据该兴趣模型,能够准确地对用户进行个性化推荐服务。
1.一种建立兴趣模型的方法,包括:
通过调用各用户端设备的浏览器记录的浏览历史数据和/或收藏夹数据,以及采集各用户端设备使用搜索引擎时的搜索关键词,获取数据样本;
从所述数据样本中提取特征词,并获取各用户端设备访问所述特征词的频次;
根据所有用户端设备的特征词,通过分类和聚类算法,得到各级兴趣类别,每级兴趣类别包括多个兴趣分类;
对于其中一个用户端设备,根据该用户端设备的特征词以及该用户端设备访问特征词的频次获得每级兴趣类别中每个兴趣分类的兴趣值,从而建立该用户端设备的兴趣模型;
将所述兴趣模型中指定兴趣值对应的兴趣分类的内容推送给用户端设备。
2.根据权利要求1所述的方法,所述获取数据样本包括:
调用各用户端设备的浏览器记录的浏览历史数据和/或收藏夹数据获取第一数据样本;
通过采集各用户端设备使用搜索引擎时的搜索关键词获取第二数据样本;
通过调用服务器记录的用户日志数据,获取第三数据样本;
由所述第一数据样本、所述第二数据样本、和所述第三数据样本得到所述数据样本。
3.根据权利要求2所述的方法,所述数据样本包括用户端设备浏览网页的统一资源定位符和搜索关键词;
所述方法还包括:对数据库中存储的所有统一资源定位符进行特征化处理,为各统一资源定位符标记特征词;
所述从数据样本中提取特征词包括:
将所述用户端设备浏览网页的统一资源定位符与数据库存储的统一资源定位符进行对比,得到对比一致的所述数据库中的统一资源定位符的特征词,作为所述数据样本的特征词;
将所述搜索关键词进行分词处理后并去掉停用词,得到所述数据样本的特征词。
4.根据权利要求1所述的方法,所述根据所有用户端设备的特征词,通过分类和聚类算法,得到各级兴趣类别包括:
通过分类算法,对所有用户端设备的特征词进行分类处理,得到k级兴趣类别,所述k级兴趣类别包括多个兴趣分类,k≥2;
通过k-1次聚类算法,对k级兴趣类别的多个兴趣分类进行聚类处理,得到k-1个i级兴趣类别,其中i∈[1,k-1]。
5.根据权利要求1所述的方法,在所述建立用户端设备的兴趣模型之后还包括:通过调用用户端设备的浏览器记录的浏览历史数据和/或收藏夹数据以及采集用户端设备使用搜索引擎时的搜索关键字,重新获取该用户端设备的数据样本;从该用户端设备的数据样本中提取特征词,并获取该用户端设备访问特征词的频次;根据该用户端设备的特征词以及该用户端设备访问特征词的频次,重新获得每级兴趣类别中每个兴趣分类的兴趣值,对用户端设备的兴趣模型进行优化更新。
6.根据权利要求1所述的方法,在所述根据所有用户端设备的特征词,得到各级兴趣类别之前还包括:对所有用户端设备的特征词进行去重处理。
7.一种建立兴趣模型的装置,包括:
样本获取模块,用于通过调用各用户端设备的浏览器记录的浏览历史数据和/或收藏夹数据,以及采集各用户端设备使用搜索引擎时的搜索关键词,获取数据样本;
特征词提取模块,用于从所述数据样本中提取特征词,并获取各用户端设备访问所述特征词的频次;
类别获取模块,用于根据所有用户端设备的特征词,通过分类和聚类算法,得到各级兴趣类别,每级兴趣类别包括多个兴趣分类;
兴趣模型建立模块,用于对于其中一个用户端设备,根据该用户端设备的特征词以及该用户端设备访问特征词的频次获得每级兴趣类别中每个兴趣分类的兴趣值,从而建立该用户端设备的兴趣模型;
推送模块,用于将所述兴趣模型中指定兴趣值对应的兴趣分类的内容推送给用户端设备。
8.根据权利要求7所述的装置,所述样本获取模块包括:
第一样本获取单元,用于调用各用户端设备的浏览器记录的浏览历史数据和/或收藏夹数据获取第一数据样本;
第二样本获取单元,用于通过采集各用户端设备使用搜索引擎时的搜索关键词获取第二数据样本;
第三样本获取单元,用于通过调用服务器记录的用户日志数据,获取第三数据样本;
由所述第一数据样本、所述第二数据样本、和所述第三数据样本得到所述数据样本。
9.根据权利要求8所述的装置,所述数据样本包括用户端设备浏览网页的统一资源定位符和搜索关键词;
所述装置还包括:特征化处理模块,用于对数据库中存储的所有统一资源定位符进行特征化处理,为各统一资源定位符标记特征词;
所述特征词提取模块包括:
第一特征词提取单元,用于将所述用户端设备浏览网页的统一资源定位符与数据库存储的统一资源定位符进行对比,得到对比一致的所述数据库中的统一资源定位符的特征词,作为所述数据样本的特征词;
第二特征词提取单元,用于将所述搜索关键词进行分词处理后并去掉停用词,得到所述数据样本的特征词。
10.根据权利要求7所述的装置,所述类别获取模块包括:
分类单元,用于通过分类算法,对所有用户端设备的特征词进行分类处理,得到k级兴趣类别,所述k级兴趣类别包括多个兴趣分类,k≥2;
聚类单元,用于通过k-1次聚类算法,对k级兴趣类别的多个兴趣分类进行聚类处理,得到k-1个i级兴趣类别,其中i∈[1,k-1]。
11.根据权利要求7所述的装置,所述样本获取模块还用于通过调用用户端设备的浏览器记录的浏览历史数据和/或收藏夹数据以及采集用户端设备使用搜索引擎时的搜索关键字,重新获取该用户端设备的数据样本;所述特征词提取模块还用于从该用户端设备的数据样本中提取特征词,并获取该用户端设备访问特征词的频次;
所述装置还包括:优化更新模块,用于根据该用户端设备的特征词以及该用户端设备访问特征词的频次,重新获得每级兴趣类别中每个兴趣分类的兴趣值,对用户端设备的兴趣模型进行优化更新。
12.根据权利要求7所述的装置,还包括:去重模块,用于对所有用户端设备的特征词进行去重处理。
建立兴趣模型的方法及装置\n技术领域\n[0001] 本发明涉及网络技术领域,具体涉及一种建立兴趣模型的方法及装置。\n背景技术\n[0002] 传统的浏览器和搜索引擎提供了大量的信息资源,但由于没有考虑到用户的个人兴趣爱好,不同的用户使用浏览器和搜索引擎得到的信息是相同的,这种不加区分的信息资源不能满足用户的个性化需求。因此,基于用户兴趣的个性化推荐服务已经成为研究与开发的热点。\n[0003] 在个性化推荐服务中,有关用户兴趣模型的研究成为核心和关键技术。目前,用户兴趣模型的建模方法主要有:手工定制建模,即由用户自行输入或选择的建模方法,该方法完全依赖于用户,并且无法准确地反映出用户兴趣;示例建模,即由用户提供与兴趣相关的示例及类别属性的建模方法,该方法需要用户在浏览过程中标注页面以得到示例,干扰了用户的正常浏览;自动建模,即根据用户的浏览内容和浏览行为构建用户模型,建模过程无需用户主动提供信息,不会对用户造成干扰,但是目前这种方法处于起步阶段,还不能完全利用浏览器和搜索引擎提供的大量的信息资源,无法有效地反映出用户的兴趣。\n发明内容\n[0004] 鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的建立兴趣模型的方法和相应的建立兴趣模型的装置。\n[0005] 依据本发明的一个方面,提供了一种建立兴趣模型的方法,包括:\n[0006] 通过调用各用户端设备的浏览器记录的浏览历史数据和/或收藏夹数据,以及采集各用户端设备使用搜索引擎时的搜索关键词,获取数据样本;\n[0007] 从所述数据样本中提取特征词,并获取各用户端设备访问所述特征词的频次;\n[0008] 根据所有用户端设备的特征词,得到各级兴趣类别,每级兴趣类别包括多个兴趣分类;\n[0009] 对于其中一个用户端设备,根据该用户端设备的特征词以及该用户端设备访问特征词的频次获得每级兴趣类别中每个兴趣分类的兴趣值,从而建立该用户端设备的兴趣模型。\n[0010] 可选地,所述获取数据样本包括:\n[0011] 调用各用户端设备的浏览器记录的浏览历史数据和/或收藏夹数据获取第一数据样本;\n[0012] 通过采集各用户端设备使用搜索引擎时的搜索关键词获取第二数据样本;\n[0013] 通过调用服务器记录的用户日志数据,获取第三数据样本;\n[0014] 由所述第一数据样本、所述第二数据样本、和所述第三数据样本得到所述数据样本。\n[0015] 可选地,所述数据样本包括用户端设备浏览网页的统一资源定位符和搜索关键词;\n[0016] 所述方法还包括:对数据库中存储的所有统一资源定位符进行特征化处理,为各统一资源定位符标记特征词;\n[0017] 所述从数据样本中提取特征词包括:\n[0018] 将所述用户端设备浏览网页的统一资源定位符与数据库存储的统一资源定位符进行对比,得到对比一致的所述数据库中的统一资源定位符的特征词,作为所述数据样本的特征词;\n[0019] 将所述搜索关键词进行分词处理后并去掉停用词,得到所述数据样本的特征词。\n[0020] 可选地,所述根据所有用户端设备的特征词,得到各级兴趣类别包括:\n[0021] 通过分类算法,对所有用户端设备的特征词进行分类处理,得到k级兴趣类别,所述k级兴趣类别包括多个兴趣分类,k≥2;\n[0022] 通过k-1次聚类算法,对k级兴趣类别的多个兴趣分类进行聚类处理,得到k-1个i级兴趣类别,其中i∈[1,k-1]。\n[0023] 可选地,在所述建立用户端设备的兴趣模型之后还包括:通过调用用户端设备的浏览器记录的浏览历史数据和/或收藏夹数据以及采集用户端设备使用搜索引擎时的搜索关键字,重新获取该用户端设备的数据样本;从该用户端设备的数据样本中提取特征词,并获取该用户端设备访问特征词的频次;根据该用户端设备的特征词以及该用户端设备访问特征词的频次,重新获得每级兴趣类别中每个兴趣分类的兴趣值,对用户端设备的兴趣模型进行优化更新。\n[0024] 可选地,在所述建立用户端设备的兴趣模型之后还包括:将所述兴趣模型中指定兴趣值对应的兴趣分类的内容推送给用户端设备。\n[0025] 可选地,在所述根据所有用户端设备的特征词,得到各级兴趣类别之前还包括:对所有用户端设备的特征词进行去重处理。\n[0026] 根据本发明的另一方面,提供了一种建立兴趣模型的装置,包括:\n[0027] 样本获取模块,用于通过调用各用户端设备的浏览器记录的浏览历史数据和/或收藏夹数据,以及采集各用户端设备使用搜索引擎时的搜索关键词,获取数据样本;\n[0028] 特征词提取模块,用于从所述数据样本中提取特征词,并获取各用户端设备访问所述特征词的频次;\n[0029] 类别获取模块,用于根据所有用户端设备的特征词,得到各级兴趣类别,每级兴趣类别包括多个兴趣分类;\n[0030] 兴趣模型建立模块,用于对于其中一个用户端设备,根据该用户端设备的特征词以及该用户端设备访问特征词的频次获得每级兴趣类别中每个兴趣分类的兴趣值,从而建立该用户端设备的兴趣模型。\n[0031] 可选地,所述样本获取模块包括:\n[0032] 第一样本获取单元,用于调用各用户端设备的浏览器记录的浏览历史数据和/或收藏夹数据获取第一数据样本;\n[0033] 第二样本获取单元,用于通过采集各用户端设备使用搜索引擎时的搜索关键词获取第二数据样本;\n[0034] 第三样本获取单元,用于通过调用服务器记录的用户日志数据,获取第三数据样本;\n[0035] 由所述第一数据样本、所述第二数据样本、和所述第三数据样本得到所述数据样本。\n[0036] 可选地,所述数据样本包括用户端设备浏览网页的统一资源定位符和搜索关键词;\n[0037] 所述装置还包括:特征化处理模块,用于对数据库中存储的所有统一资源定位符进行特征化处理,为各统一资源定位符标记特征词;\n[0038] 所述特征词提取模块包括:\n[0039] 第一特征词提取单元,用于将所述用户端设备浏览网页的统一资源定位符与数据库存储的统一资源定位符进行对比,得到对比一致的所述数据库中的统一资源定位符的特征词,作为所述数据样本的特征词;\n[0040] 第二特征词提取单元,用于将所述搜索关键词进行分词处理后并去掉停用词,得到所述数据样本的特征词。\n[0041] 可选地,所述类别获取模块包括:\n[0042] 分类单元,用于通过分类算法,对所有用户端设备的特征词进行分类处理,得到k级兴趣类别,所述k级兴趣类别包括多个兴趣分类,k≥2;\n[0043] 聚类单元,用于通过k-1次聚类算法,对k级兴趣类别的多个兴趣分类进行聚类处理,得到k-1个i级兴趣类别,其中i∈[1,k-1]。\n[0044] 可选地,所述样本获取模块还用于通过调用用户端设备的浏览器记录的浏览历史数据和/或收藏夹数据以及采集用户端设备使用搜索引擎时的搜索关键字,重新获取该用户端设备的数据样本;所述特征词提取模块还用于从该用户端设备的数据样本中提取特征词,并获取该用户端设备访问特征词的频次;\n[0045] 所述装置还包括:优化更新模块,用于根据该用户端设备的特征词以及该用户端设备访问特征词的频次,重新获得每级兴趣类别中每个兴趣分类的兴趣值,对用户端设备的兴趣模型进行优化更新。\n[0046] 可选地,所述装置还包括:推送模块,用于将所述兴趣模型中指定兴趣值对应的兴趣分类的内容推送给用户端设备。\n[0047] 可选地,所述装置还包括:去重模块,用于对所有用户端设备的特征词进行去重处理。\n[0048] 根据本发明提供的建立兴趣模型的方法及装置,通过调用各用户端设备的浏览器记录的浏览历史数据和/或收藏夹数据,以及采集各用户端设备使用搜索引擎时的搜索关键词,获取数据样本;从这些数据样本中提取特征词,根据该特征词及其访问频次获得用户端设备对某些兴趣分类的兴趣值,从而建立兴趣模型。在这个过程中,充分利用了浏览器和搜索引擎提供的大量的信息资源,有效地反映出用户的兴趣,根据该兴趣模型,能够准确地对用户进行个性化推荐服务。\n[0049] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。\n附图说明\n[0050] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:\n[0051] 图1示出了根据本发明一个实施例的建立兴趣模型的方法的流程图;\n[0052] 图2示出了根据本发明另一个实施例的建立兴趣模型的方法的流程图;以及[0053] 图3示出了根据本发明一个实施例的建立兴趣模型的装置的结构示意图。\n具体实施方式\n[0054] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。\n[0055] 图1示出了根据本发明一个实施例的建立兴趣模型的方法的流程图。如图1所示,该方法包括如下步骤:\n[0056] 步骤101、通过调用各用户端设备的浏览器记录的浏览历史数据和/或收藏夹数据,以及采集各用户端设备使用搜索引擎时的搜索关键词,获取数据样本。\n[0057] 通常用户端设备的浏览器都会记录用户的浏览历史数据,包括用户曾经浏览的网页的网址(例如URL)。浏览器的收藏夹中保存了用户想要收藏的网页的网址,这些数据都反映出用户感兴趣的内容,因此浏览器记录的浏览历史数据和/或收藏夹数据可作为数据样本。另外,用户也会经常使用搜索引擎搜索自己感兴趣的内容,因此使用搜索引擎时的搜索关键词也可作为数据样本。本实施例中,数据样本可以具体为网页的URL和搜索关键词。\n[0058] 步骤102、从数据样本中提取特征词,并获取各用户端设备访问特征词的频次。\n[0059] 根据获得的数据样本,从中提取出能够反映出样本特征的特征词,同时获取用户端设备访问该特征词的频次。\n[0060] 步骤103、根据所有用户端设备的特征词,得到各级兴趣类别,每级兴趣类别包括多个兴趣分类。\n[0061] 统计所有用户端设备的特征词,得到多级兴趣类别,对于每一级兴趣类别,包括多个兴趣分类。举例来说,设兴趣类别共分为2级,分别为1级兴趣类别和2级兴趣类别,其中1级兴趣类别包括的兴趣分类有体育、投资、音乐和宠物,2级兴趣类别包括的兴趣分类有足球、篮球、网球、游泳、基金、股票、期货、黄金、R&B、嘻哈、古典、摇滚、猫、狗、豚鼠、蛇。由此可见,2级兴趣类别的兴趣分类属于1级兴趣类别的兴趣分类,本文中将这种关系描述为\n1级兴趣类别的级别高于2级兴趣类别。\n[0062] 步骤104、对于其中一个用户端设备,根据该用户端设备的特征词以及该用户端设备访问特征词的频次获得每级兴趣类别中每个兴趣分类的兴趣值,从而建立该用户端设备的兴趣模型。\n[0063] 在上述例子中,根据用户端设备的特征词以及访问特征词的频次,获得该用户端设备对足球、篮球、网球、游泳、基金、股票、期货、黄金、R&B、嘻哈、古典、摇滚、猫、狗、豚鼠、蛇等2级兴趣类别的兴趣分类的兴趣值。用户端设备对体育、投资、音乐和宠物等1级兴趣类别的兴趣分类的兴趣值可以通过用户端设备对2级兴趣类别的兴趣分类的兴趣值得到,例如,用户端设备对体育的兴趣值可以通过对足球、篮球、网球、游泳的兴趣值加权得到。\n[0064] 根据本实施例提供的建立兴趣模型的方法,通过调用各用户端设备的浏览器记录的浏览历史数据和/或收藏夹数据,以及采集各用户端设备使用搜索引擎时的搜索关键词,获取数据样本;从这些数据样本中提取特征词,根据该特征词及其访问频次获得用户端设备对某些兴趣分类的兴趣值,从而建立兴趣模型。该方法充分利用了浏览器和搜索引擎提供的大量的信息资源,有效地反映出用户的兴趣,根据该兴趣模型,能够准确地对用户进行个性化推荐服务。\n[0065] 图2示出了根据本发明另一个实施例的建立兴趣模型的方法的流程图。如图2所示,该方法包括如下步骤:\n[0066] 步骤201、调用各用户端设备的浏览器记录的浏览历史数据和/或收藏夹数据获取第一数据样本;通过采集各用户端设备使用搜索引擎时的搜索关键词获取第二数据样本;通过调用服务器记录的用户日志数据,获取第三数据样本,由第一数据样本、第二数据样本和第三数据样本得到数据样本。\n[0067] 以360浏览器为例,对于使用360浏览器的用户端设备,它对于网页的浏览是通过浏览器向网站的服务器发起请求,浏览器都会记录用户端设备的浏览过的网页的URL。浏览器的收藏夹中保存了用户想要收藏的网页的URL。通过调用这些数据获取第一数据样本。\n[0068] 用户端设备经常使用搜索引擎搜索自己感兴趣的内容,通过搜索引擎记录用户输入的搜索关键词,采集这些数据获取第二数据样本。\n[0069] 对于非360浏览器的用户,如果该用户使用http://hao.360.cn/网站导航来访问链接网页,任何包括点击、搜索和输入等的操作,都会向服务器发起请求,导航站的服务器会根据这些请求记录用户日志数据,通过调用这些数据获取第三数据样本。\n[0070] 由上述第一数据样本、第二数据样本和第三数据样本组成本实施例的数据样本,其中第一数据样本为网页的URL、第二数据样本为搜索关键词、第三数据样本包括网页的URL和用户输入的搜索关键词。\n[0071] 步骤202、对数据库中存储的所有URL进行特征化处理,为各URL标记特征词。\n[0072] 数据库中存储了大量网页的URL,根据URL对应网页的内容、网站属性、访问该网页的用户的性质等参数为这些URL标记特征词。例如,对于URL:http://www.docin.com/p-6836417.html,通过解析得到该网页的标题为“PDF教程:Axure快速原型设计”,根据该文本提取出特征词{Axure,原型设计};根据网站属性提取出特征词{文档};根据该网页的用户的性质提取出特征词{产品经理,互联网}。由此,该URL被标记成如下特征词:{文档,Axure,原型设计,产品经理,互联网}。\n[0073] 步骤203、对于数据样本中的用户端设备浏览网页的URL,将其与数据库存储的URL进行对比,得到对比一致的数据库中的URL的特征词,作为该数据样本的特征词;对于数据样本中的搜索关键词,将其进行分词处理后并去掉停用词,得到该数据样本的特征词。\n[0074] 由于数据库中的URL均被标记了特征词,如果数据样本中用户端设备浏览网页的URL与数据库中的某一URL一致,那么可将数据库中该URL的特征词作为数据样本的特征词。\n[0075] 对于搜索关键词,对其进行分词和去掉停用词处理得到特征词。停用词是搜索引擎在索引页面或处理搜索请求时会自动忽略的某些字或词,包括应用十分广泛的字或词以及无明确意义的语气助词、副词、介词或连接词等。以“2012年的各省高考作文题目”为例,经过分词处理后得到{2012,年,的,各省,高考,作文,题目},去掉其中的停用词{2012,年,的,各省,题目},得到特征词{高考,作文}。\n[0076] 另外,在提取特征词的同时,还要获取用户端设备访问该特征词的频次。用户端设备访问该特征词的频次包括用户端设备访问被标记为该特征词的URL的频次以及用户端设备使用搜索引擎搜索包含该特征词的搜索关键词的频次。\n[0077] 步骤204、根据所有用户端设备的特征词,得到各级兴趣类别,每级兴趣类别包括多个兴趣分类。\n[0078] 本步骤通过分类算法和聚类算法来实现,具体分为如下两步:\n[0079] a)通过分类算法,对所有用户端设备的特征词进行分类处理,得到k级兴趣类别,所述k级兴趣类别包括多个兴趣分类,k≥2;\n[0080] 分类处理是针对所有用户的数据进行的,目的是将所有用户的特征词进行较为细化和统一的分类。分类的过程包括预处理、索引、统计、特征抽取、分类器处理、结果评价反馈和优化分类等。\n[0081] b)通过k-1次聚类算法,对k级兴趣类别的多个兴趣分类进行聚类处理,得到k-1个i级兴趣类别,其中i∈[1,k-1]。\n[0082] 聚类算法的主要思想是将特征词较为分散的分类进行整理,得出较大的聚类。聚类的原则是聚类中的事物距离尽可能的近,尽量向聚类的中心靠拢,聚类的半径要小,不同聚类之间的距离要尽可能的大,尽量不要有重叠。\n[0083] 以k=2为例,在a)中,统计所有用户端设备的特征词,对这些特征词进行分类处理,得到2级兴趣类别。该2级兴趣类别包括以下多个兴趣分类:足球、篮球、网球、游泳、基金、股票、期货、黄金、R&B、嘻哈、古典、摇滚、猫、狗、豚鼠、蛇。在b)中,通过1次聚类算法,对2级兴趣类别中的多个兴趣分类进行聚类处理,得到1个1级兴趣类别。具体地说,将足球、篮球、网球、游泳聚类为体育,将基金、股票、期货、黄金聚类为投资,将R&B、嘻哈、古典、摇滚聚类为音乐,将猫、狗、豚鼠、蛇聚类为宠物。\n[0084] 如果k=3,在b)中,需要经过2次聚类算法,首先将3级兴趣类别的多个兴趣分类进行聚类处理,得到2级兴趣类别,然后将2级兴趣类别的多个兴趣分类进行聚类处理,得到1级兴趣类别。如果k>3,b)具体为:将k级兴趣类别的多个兴趣分类进行聚类处理,得到k-1级兴趣类别;将k-1级兴趣类别的多个兴趣分类进行聚类处理,得到k-2级兴趣类别;依次类推,直至得到1级兴趣类别。\n[0085] 优选地,在步骤204之前还可以包括:对所有用户端设备的特征词进行去重处理,目的是为了去除重复的特征词,提高步骤204的执行效率。\n[0086] 步骤205、对于其中一个用户端设备,根据该用户端设备的特征词以及该用户端设备访问特征词的频次获得每级兴趣类别中每个兴趣分类的兴趣值,从而建立该用户端设备的兴趣模型。\n[0087] 本步骤中,根据用户端设备的特征词以及访问频次首先获得k级兴趣类别中每个兴趣分类的兴趣值,然后根据k级兴趣类别中每个兴趣分类的兴趣值,得到各级兴趣类别中兴趣分类的兴趣值。\n[0088] 以k=2为例,设1级兴趣类别包括m个兴趣分类,这m个兴趣分类又分别包括2级兴趣类别中的某几个子兴趣分类,假设其中包括2级兴趣类别中的子兴趣分类的个数最多为n个。由此构造成一个m×n的矩阵,如下:\n[0089] \n[0090] 其中aij是2级兴趣类别中某个兴趣分类的兴趣值,该兴趣分类是1级兴趣类别中第i个兴趣分类的第j个子兴趣分类。\n[0091] 在上述例子中,构造的矩阵如下:\n[0092] \n[0093] 以足球为例,用户端设备的特征词包括欧冠(访问频次为100)、欧锦赛(访问频次为150)、世界杯(访问频次为251),那么该用户端设备对兴趣分类足球的兴趣值为501。\n[0094] 上述矩阵中表示出了2级兴趣类别中每个兴趣分类的兴趣值。1级兴趣类别中兴趣分类的兴趣值可由2级兴趣类别中每个兴趣分类的兴趣值加权得到,例如,用户端设备对体育的兴趣值可以通过对足球、篮球、网球、游泳的兴趣值加权得到。\n[0095] 步骤206、将兴趣模型中指定兴趣值对应的兴趣分类的内容推送给用户端设备。\n[0096] 在建立了用户端设备的兴趣模型之后,可以据此获取用户感兴趣的内容推送给它。具体地,可以将兴趣模型中兴趣值大于预设阈值的兴趣分类的内容作为推送内容。\n[0097] 步骤207、在用户使用过程中,对兴趣模型进行优化更新。\n[0098] 具体地,通过调用用户端设备的浏览器记录的浏览历史数据和/或收藏夹数据以及采集用户端设备使用搜索引擎时的搜索关键字,重新获取该用户端设备的数据样本,也可以调用服务器记录的用户日志数据获取数据样本;从该用户端设备的数据样本中提取特征词,并获取该用户端设备访问特征词的频次;根据该用户端设备的特征词以及该用户端设备访问特征词的频次,重新获得每级兴趣类别中每个兴趣分类的兴趣值,对用户端设备的兴趣模型进行优化更新。该优化更新可以按照预设的时间周期进行,也可以按照用户的活跃程度来进行,如当用户的数据样本增量达到预设值进行优化更新,其中预设值可根据实际需要来确定。\n[0099] 本实施例提供的建立兴趣模型的方法,其所采用的数据样本不仅包括浏览器记录的浏览历史数据和/或收藏夹数据和各用户端设备使用搜索引擎时的搜索关键词,还包括服务器记录的用户日志数据,更加充分的利用了信息资源。从这些数据样本中提取特征词,根据该特征词及其访问频次获得用户端设备对某些兴趣分类的兴趣值,从而建立兴趣模型,根据该兴趣模型,能够准确地对用户进行个性化推荐服务。在用户的使用过程中,还可以对兴趣模型进行优化更新,能够及时地捕捉到用户的兴趣爱好的变化,适时的对推送的内容做调整。\n[0100] 图3示出了根据本发明一个实施例的建立兴趣模型的装置的结构示意图。如图3所示,该装置包括:样本获取模块10、特征词提取模块11、类别获取模块12和兴趣模型建立模块13,其中:样本获取模块10用于通过调用各用户端设备的浏览器记录的浏览历史数据和/或收藏夹数据,以及采集各用户端设备使用搜索引擎时的搜索关键词,获取数据样本;\n特征词提取模块11用于从所述数据样本中提取特征词,并获取各用户端设备访问所述特征词的频次;类别获取模块12用于根据所有用户端设备的特征词,得到各级兴趣类别,每级兴趣类别包括多个兴趣分类;兴趣模型建立模块13用于对于其中一个用户端设备,根据该用户端设备的特征词以及该用户端设备访问特征词的频次获得每级兴趣类别中每个兴趣分类的兴趣值,从而建立该用户端设备的兴趣模型。\n[0101] 进一步的,样本获取模块10可以包括:第一样本获取单元10a、第二样本获取单元\n10b和第三样本获取单元10c,其中,第一样本获取单元10a,用于调用各用户端设备的浏览器记录的浏览历史数据和/或收藏夹数据获取第一数据样本;第二样本获取单元10b,用于通过采集各用户端设备使用搜索引擎时的搜索关键词获取第二数据样本;第三样本获取单元10c,用于通过调用服务器记录的用户日志数据,获取第三数据样本;由所述第一数据样本、所述第二数据样本、和所述第三数据样本得到所述数据样本。\n[0102] 上述数据样本包括用户端设备浏览网页的统一资源定位符和搜索关键词。该装置还包括:特征化处理模块14,用于对数据库中存储的所有统一资源定位符进行特征化处理,为各统一资源定位符标记特征词。\n[0103] 上述特征词提取模块11包括第一特征词提取单元11a和第二特征词提取单元\n11b,其中,第一特征词提取单元11a用于将所述用户端设备浏览网页的统一资源定位符与数据库存储的统一资源定位符进行对比,得到对比一致的所述数据库中的统一资源定位符的特征词,作为所述数据样本的特征词;第二特征词提取单元11b用于将所述搜索关键词进行分词处理后并去掉停用词,得到所述数据样本的特征词。\n[0104] 上述类别获取模块12包括分类单元12a和聚类单元12b,其中,分类单元12a用于通过分类算法,对所有用户端设备的特征词进行分类处理,得到k级兴趣类别,所述k级兴趣类别包括多个兴趣分类,k≥2;聚类单元12b用于通过k-1次聚类算法,对k级兴趣类别的多个兴趣分类进行聚类处理,得到k-1个i级兴趣类别,其中i∈[1,k-1]。\n[0105] 进一步的,样本获取模块10还用于通过调用用户端设备的浏览器记录的浏览历史数据和/或收藏夹数据以及采集用户端设备使用搜索引擎时的搜索关键字,重新获取该用户端设备的数据样本;特征词提取模块11还用于从该用户端设备的数据样本中提取特征词,并获取该用户端设备访问特征词的频次。该装置还包括:优化更新模块15,用于根据该用户端设备的特征词以及该用户端设备访问特征词的频次,重新获得每级兴趣类别中每个兴趣分类的兴趣值,对用户端设备的兴趣模型进行优化更新。\n[0106] 进一步的,该装置还包括:推送模块16,用于将所述兴趣模型中指定兴趣值对应的兴趣分类的内容推送给用户端设备。\n[0107] 进一步的,该装置还包括:去重模块17,用于对所有用户端设备的特征词进行去重处理。\n[0108] 根据本实施例提供的建立兴趣模型的装置,通过调用各用户端设备的浏览器记录的浏览历史数据和/或收藏夹数据,以及采集各用户端设备使用搜索引擎时的搜索关键词,获取数据样本;从这些数据样本中提取特征词,根据该特征词及其访问频次获得用户端设备对某些兴趣分类的兴趣值,从而建立兴趣模型。该装置充分利用了浏览器和搜索引擎提供的大量的信息资源,有效地反映出用户的兴趣,根据该兴趣模型,能够准确地对用户进行个性化推荐服务。\n[0109] 在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。\n各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。\n[0110] 在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。\n[0111] 类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。\n[0112] 本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。\n[0113] 此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。\n[0114] 本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的建立兴趣模型的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。\n这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。\n[0115] 应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
法律信息
- 2022-07-15
未缴年费专利权终止
IPC(主分类): G06F 17/30
专利号: ZL 201210279366.8
申请日: 2012.08.07
授权公告日: 2015.07.08
- 2015-07-08
- 2013-02-06
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201210279366.8
申请日: 2012.08.07
- 2012-12-19
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2008-02-20
|
2007-08-03
| | |
2
| |
2011-08-03
|
2010-01-28
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 1 | | 2015-09-17 | 2015-09-17 | | |