著录项信息
专利名称 | 向用户提供目标信息的方法及设备 |
申请号 | CN200810103480.9 | 申请日期 | 2008-04-07 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2008-09-17 | 公开/公告号 | CN101266620 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F16/9535 | IPC分类号 | G;0;6;F;1;6;/;9;5;3;5查看分类表>
|
申请人 | 北京大学;北大方正集团有限公司;北京方正阿帕比技术有限公司 | 申请人地址 | 北京市海淀区颐和园路5号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 北京大学,北大方正集团有限公司,北京方正阿帕比技术有限公司 | 当前权利人 | 北京大学,北大方正集团有限公司,北京方正阿帕比技术有限公司 |
发明人 | 吴定明;赵东岩 |
代理机构 | 北京同达信恒知识产权代理有限公司 | 代理人 | 黄志华 |
摘要
本发明公开了一种向用户提供目标信息的方法,该方法包括获取用户浏览信息的历史行为数据,所述历史行为数据包括信息的内容及浏览的时刻;对所述信息的内容进行分类,并根据分类结果确定所述信息分别归属于其内容所属的一个或多个类别的概率;根据所述概率及所述浏览的时刻,确定用户在设定时刻对所述一个或多个类别的兴趣值;根据所述兴趣值,在所述设定时刻向用户提供不小于设定阈值的兴趣值所对应类别的目标信息。本发明同时公开一种向用户提供目标信息的设备。采用本发明可以量化并按用户需求多粒度地描述用户对信息的兴趣,动态反映用户兴趣的变化过程,简化用户操作。
1.一种向用户提供目标信息的方法,其特征在于,该方法包括:
获取用户浏览信息的历史行为数据,所述历史行为数据包括信息的内容及浏览的时
刻;
对所述信息的内容进行分类,确定所述信息归属的类别的个数,并根据所述信息归属
的类别的个数,确定所述信息归属于其内容所属的一个或多个类别的概率;
根据所述概率及所述浏览的时刻,确定用户在设定时刻对所述一个或多个类别的兴趣
值;
根据所述兴趣值,在所述设定时刻向用户提供不小于设定阈值的兴趣值所对应类别的
目标信息。
2.如权利要求1所述的方法,其特征在于,所述历史行为数据还包括用户标识;
根据用户标识、所述概率及所述浏览的时刻,获得不同用户在设定时刻的兴趣值;
根据所述兴趣值及接收的用户标识,在所述设定时刻向相应用户提供目标信息。
3.如权利要求2所述的方法,其特征在于,所述用户标识为用户的注册名或IP地址。
4.如权利要求1所述的方法,其特征在于,根据所述概率及所述浏览的时刻,确定用户
在设定时刻对一个类别的兴趣值,包括:
按如下公式,确定用户在所述浏览的时刻对该类别的兴趣值:
其中,k为遗忘因子,kα为记忆因子,weight0为该类别在t时刻对应的概率,t为所述浏览
的时刻;
按如下公式,确定用户在设定时刻对该类别的兴趣值:
其中,t为所述浏览的时刻,t+τ为所述设定时刻,timen≤t≤timen+1,τ=timen‑timen‑1,
weightn为该类别在设定时刻t+τ对应的概率。
5.如权利要求1所述的方法,其特征在于,所述信息为网站、网页、或网页中的对象。
6.如权利要求1至5任一项所述的方法,其特征在于,根据所述兴趣值,在所述设定时刻
向用户提供不小于设定阈值的兴趣值所对应类别的目标信息包括:
将所述兴趣值与设定阈值进行大小比较;
在所述设定时刻向用户提供不小于所述阈值的兴趣值所对应类别的信息。
7.一种向用户提供目标信息的设备,其特征在于,包括:
获取模块,用于获取用户浏览信息的历史行为数据,所述历史行为数据包括信息的内
容及浏览的时刻;
分类模块,包括第一分类单元以及第二分类单元;其中,第一分类单元,用于对所述信
息的内容进行分类,确定所述信息归属的类别的个数;第二分类单元,用于根据所述信息归
属的类别的个数,确定所述信息归属于其内容所属的一个或多个类别的概率;
处理模块,用于根据所述概率及所述浏览的时刻,确定用户在设定时刻对所述一个或
多个类别的兴趣值;
提供模块,用于根据所述兴趣值,在所述设定时刻向用户提供不小于设定阈值的兴趣
值所对应类别的目标信息。
8.如权利要求7所述的设备,其特征在于,所述历史行为数据还包括用户标识;
所述处理模块进一步用于根据用户标识、所述概率及所述浏览的时刻,获得不同用户
在设定时刻的兴趣值;
所述提供模块包括:
接收单元,用于接收用户标识;
第一提供单元,用于根据所述兴趣值及接收的用户标识,在所述设定时刻向相应用户
提供目标信息。
9.如权利要求7所述的设备,其特征在于,所述处理模块包括:
第一处理单元,用于按如下公式,确定用户在所述浏览的时刻对一个类别的兴趣值:
其中,k为遗忘因子,kα为记忆因子,weight0为该类别在t时刻对应的概率,t为所述浏览
的时刻;
第二处理单元,用于按如下公式,确定用户在设定时刻对该类别的兴趣值:
其中,t为所述浏览的时刻,t+τ为所述设定时刻,timen≤t≤timen+1,τ=timen‑timen‑1,
weightn为该类别在设定时刻t+τ对应的概率。
10.如权利要求7至9任一项所述的设备,其特征在于,所述提供模块包括:
比较单元,用于将所述兴趣值与阈值进行大小比较;
第二提供单元,用于在所述设定时刻向用户提供不小于所述阈值的兴趣值所对应类别
的信息。
向用户提供目标信息的方法及设备\n技术领域\n[0001] 本发明涉及网络技术领域,尤其涉及向用户提供目标信息的方法及设备。\n背景技术\n[0002] 互联网上存在海量的信息,内容丰富,形式各异。网络用户希望从浩瀚的信息资源\n中获取满足个人需求的信息。搜索引擎、元搜索引擎以及其他的一些搜索工具可以帮助我\n们从巨大的信息网络中提取信息。当用户进行检索时一般只会提供较少的检索关键词,而\n搜索引擎会返回数量巨大的搜索结果。如果缺少对用户的兴趣分析,即如果没有建立准确\n的用户模型,用户将会被淹没在信息的海洋中。\n[0003] 由此可见,建立准确的用户模型对于用户目标信息的获取非常重要。用户建模已\n经成为网络数据挖掘的核心研究内容,比如,个性化搜索,广告目标客户定位,信息推荐,市\n场商业决策和客户关系管理等等。\n[0004] 目前主要存在两种用户建模的方法,一种是静态用户建模,一种是动态用户建模。\n[0005] 静态用户建模分析用户提供的个人信息,比如,注册信息和问卷调查。发明人经过\n分析,发现静态用户建模的方法只能对用户的兴趣做一个粗略的描述,在实际应用中存在\n一些问题,首先,由于这种用户模型是静态的,因此模型描述的用户兴趣只在某一段时间内\n有效,不能反映未来用户兴趣的变化情况;其次,用户提交的个人信息是一种主观的输入,\n不能客观反映其兴趣的特征。\n[0006] 动态用户建模分析用户在网站上的活动和行为,发明人经过分析,发现这种模型\n对用户模型的描述粒度很小,具体到某一个兴趣点,没有一个概括的描述。\n[0007] 另外,还有其它一些用户建模的方法需要用户提供反馈信息,这样会使用户的操\n作变得复杂,影响用户正常的行为。\n发明内容\n[0008] 本发明实施例提供一种向用户提供目标信息的方法,用以量化并按用户需求多粒\n度地描述用户对信息的兴趣,动态反映用户兴趣的变化过程,简化用户操作,该方法包括:\n[0009] 获取用户浏览信息的历史行为数据,所述历史行为数据包括信息的内容及浏览的\n时刻;\n[0010] 对所述信息的内容进行分类,确定所述信息归属的类别的个数,并根据所述信息\n归属的类别的个数,确定所述信息归属于其内容所属的一个或多个类别的概率;\n[0011] 根据所述概率及所述浏览的时刻,确定用户在设定时刻对所述一个或多个类别的\n兴趣值;\n[0012] 根据所述兴趣值,在所述设定时刻向用户提供不小于设定阈值的兴趣值所对应类\n别的目标信息。\n[0013] 较佳的,所述历史行为数据还包括用户标识;\n[0014] 根据用户标识、所述概率及所述浏览的时刻,获得不同用户在设定时刻的兴趣值;\n根据所述兴趣值及接收的用户标识,在所述设定时刻向相应用户提供目标信息。\n[0015] 较佳的,所述用户标识为用户的注册名或IP地址。\n[0016] 较佳的,根据所述概率及所述浏览的时刻,确定用户在设定时刻对一个类别的兴\n趣值,包括:\n[0017] 按如下公式,确定用户在所述浏览的时刻对该类别的兴趣值:\n[0018]\n[0019] 其中,k为遗忘因子,kα为记忆因子,weight0为该类别在t时刻对应的概率,t为所述\n浏览的时刻;\n[0020] 按如下公式,确定用户在设定时刻对该类别的兴趣值:\n[0021]\n[0022] 其中,t为所述浏览的时刻,t+τ为所述设定时刻,timen≤t≤timen+1,τ=timen‑\ntimen‑1,weightn为该类别在设定时刻t+τ对应的概率。\n[0023] 较佳的,所述信息为网站、网页、或网页中的对象。\n[0024] 较佳的,根据所述兴趣值,在所述设定时刻向用户提供不小于设定阈值的兴趣值\n所对应类别的目标信息包括:\n[0025] 将所述兴趣值与设定阈值进行大小比较;\n[0026] 在所述设定时刻向用户提供不小于所述阈值的兴趣值所对应类别的信息。\n[0027] 本发明实施例还提供一种向用户提供目标信息的设备,用以量化并按用户需求多\n粒度地描述用户对信息的兴趣,动态反映用户兴趣的变化过程,简化用户操作,该设备包\n括:\n[0028] 获取模块,用于获取用户浏览信息的历史行为数据,所述历史行为数据包括信息\n的内容及浏览的时刻;\n[0029] 分类模块,包括第一分类单元以及第二分类单元;\n[0030] 其中,第一分类单元,用于对所述信息的内容进行分类,确定所述信息归属的类别\n的个数;\n[0031] 第二分类单元,用于根据所述信息归属的类别的个数,确定所述信息归属于其内\n容所属的一个或多个类别的概率;\n[0032] 处理模块,用于根据所述概率及所述浏览的时刻,确定用户在设定时刻对所述一\n个或多个类别的兴趣值;\n[0033] 提供模块,用于根据所述兴趣值,在所述设定时刻向用户提供不小于设定阈值的\n兴趣值所对应类别的信息。\n[0034] 较佳的,所述历史行为数据还包括用户标识;所述处理模块进一步用于根据用户\n标识、所述概率及所述浏览的时刻,获得不同用户在设定时刻的兴趣值;\n[0035] 所述提供模块包括:\n[0036] 接收单元,用于接收用户标识;\n[0037] 第一提供单元,用于根据所述兴趣值及接收的用户标识,在所述设定时刻向相应\n用户提供目标信息。\n[0038] 较佳的,所述处理模块包括:\n[0039] 第一处理单元,用于按如下公式,确定用户在所述浏览的时刻对一个类别的兴趣\n值:\n[0040]\n[0041] 其中,k为遗忘因子,kα为记忆因子,weight0为该类别在t时刻对应的概率,t为所述\n浏览的时刻;\n[0042] 第二处理单元,用于按如下公式,确定用户在设定时刻对该类别的兴趣值:\n[0043]\n[0044] 其中,t为所述浏览的时刻,t+τ为所述设定时刻,timen≤t≤timen+1,τ=timen‑\ntimen‑1,weightn为该类别在设定时刻t+τ对应的概率。\n[0045] 较佳的,所述提供模块包括:\n[0046] 比较单元,用于将所述兴趣值与阈值进行大小比较;\n[0047] 第二提供单元,用于在所述设定时刻向用户提供不小于所述阈值的兴趣值所对应\n类别的信息。\n[0048] 本发明实施例中,通过获取用户浏览信息的历史行为数据,所述历史行为数据包\n括信息的内容及浏览的时刻;对所述信息的内容进行分类,获得所述信息归属于设定类别\n的概率;根据所述概率及所述浏览的时刻,获得用户在设定时刻的兴趣值;根据所述兴趣\n值,在所述设定时刻向用户提供目标信息,不但可以量化并按用户需求多粒度地描述用户\n对信息的兴趣,动态反映用户兴趣的变化过程,对用户未来的兴趣趋势作出预测,实施时也\n无需用户提供反馈信息,使用户操作相对简化。\n附图说明\n[0049] 图1为本发明实施例中向用户提供目标信息的流程图;\n[0050] 图2为本发明实施例中用户浏览的信息归属于设定类别的概率曲线图;\n[0051] 图3为本发明实施例中向用户提供目标信息的设备的结构示意图;\n[0052] 图4、图7为本发明实施例中提供模块的结构示意图;\n[0053] 图5为本发明实施例中分类模块的结构示意图;\n[0054] 图6为本发明实施例中处理模块的结构示意图。\n具体实施方式\n[0055] 下面结合说明书附图对本发明实施例进行详细说明。\n[0056] 如图1所示,本发明实施例中,向用户提供目标信息的流程如下:\n[0057] 步骤11、获取用户浏览信息的历史行为数据,该历史行为数据包括信息的内容及\n浏览的时刻。\n[0058] 步骤12、对信息的内容进行分类,获得该信息归属于设定类别的概率。\n[0059] 步骤13、根据获得的概率及浏览的时刻,获得用户在设定时刻的兴趣值。\n[0060] 步骤14、根据该兴趣值,在设定时刻向用户提供目标信息。\n[0061] 图1所示流程中,用户所浏览的信息可以是网站,也可以是网页,还可以是网页中\n的对象,具体可根据用户需求设置。本领域普通技术人员容易理解,在不同的应用场合,可\n以针对用户所需要的目标信息进行上述处理,大到一个网站,小到网页中的一件商品,都可\n适用本发明实施例方法,从而实现按用户需求多粒度地描述用户对信息感兴趣的程度。\n[0062] 一个实施例中,在用户为多个时,步骤11中的历史行为数据还可以包括用户标识,\n用以唯一标识用户。该用户标识可以是用户的注册名、IP地址等。表1以用户所浏览的信息\n是网页为例,说明用户的历史行为数据:\n[0063] 表1用户的历史行为数据\n[0064]\n[0065] 若用户为多个,则在步骤12中,可以根据用户标识、所述概率及所述浏览的时刻,\n获得不同用户在设定时刻的兴趣值。根据不同用户的需求,可以预设不同的分类体系,可以\n是单层的,也可以是多层的,还可以是其它的分类方法。无论采用什么分类方法,其最终目\n的均是将用户浏览的信息的内容归类到某一个或者某几个类别中,并获得用户浏览的信息\n归属于某一个类别的概率p。例如,表1中,http://idoican/page1.html的信息内容归属于\n新闻类别的概率p=0.8,http://idoican/2008.mp3的信息内容归属于音乐类别的概率p=\n1.0,http://idoican/page2.html的信息内容归属于体育类别的概率p=0.6。\n[0066] 一个实施例中,可以先对信息的内容进行分类,获得该信息归属的类别的个数,后\n续根据该信息归属的类别的个数,获得该信息归属于设定类别的概率。例如,某信息既包含\n新闻类别的内容,又包含音乐类别的内容,还包含体育类别的内容,则该信息可归属于新\n闻、音乐、体育3个类别,概率均为p=0.33。又如,某信息仅包含新闻类别的内容,则该信息\n归属于新闻1个类别,概率为p=1。实施中也可结合考虑信息内容的具体构成,例如,某信息\n80%的内容属新闻类别,20%的内容属音乐类别,则可以认为该信息归属于新闻类别的概\n率为p=0.8,归属于音乐类别的概率为p=0.2。\n[0067] 一个实施例中,对用户浏览的信息的内容按照分类体系进行分类后,可以在每一\n个类别中按照时间顺序对概率进行排序,数据处理完成后可得如表2所示的分类后的历史\n行为数据。其中,Topic是分类体系中的某一个类别,weight是用户浏览的信息归属于设定\n类别的概率。\n[0068] 表2分类后的历史行为数据\n[0069]\n[0070] 将表1的举例应用到表2,可以得到表3:\n[0071] 表3分类后的历史行为数据的具体实例\n[0072]\n[0073] 一个实施例中,根据艾宾浩斯的记忆遗忘规律,步骤14在实施时可按公式①获得\n用户在浏览的时刻的兴趣值:\n[0074]\n[0075] 其中,k为遗忘因子,例如取k=0.1;kα为记忆因子,例如取kα=0.9;weight0为在t\n时刻对应的概率,t为浏览的时刻。可见,公式①描述用户在浏览的时刻对某一个类别该兴\n趣的程度,值越大,兴趣越大,实际是兴趣的一种量化表示。\n[0076] 由迭代关系推导,可按公式②获得用户在设定时刻的兴趣值:\n[0077]\n[0078] 其中,t为浏览的时刻,t+τ为设定时刻,timen≤t≤timen+1,τ=timen‑timen‑1,\nweightn为在设定时刻t+τ对应的概率。由此可见,在t+τ时刻,用户的兴趣值为上一时刻遗\n留的兴趣值与此刻新增加的兴趣值的叠加值。\n[0079] 将表2中每个用户的每个topic的时间序列带入公式②可获得每个用户的兴趣模\n型,在每一个用户兴趣模型中,每一个topic对应一个兴趣值Z(t),根据Z(t)就可以预测出\n未来某个时间用户的兴趣变化。\n[0080] 由图2所示的公式②的函数曲线图可知,本发明实施例中的兴趣值可以动态反映\n用户兴趣的变化,如新的兴趣的产生,已有兴趣的消失或增强。在任何时刻均能计算出用户\n对某个类别信息的兴趣值。图2仅为一例,从图中可以看出,用户对美食(cooking)和教育\n(education)这两个类别的兴趣有所增强,而家庭(home)这个类别的兴趣有所减弱。\n[0081] 根据本发明实施例中的用户模型可以计算出用户对不同信息的兴趣值,用户在网\n站上浏览信息时,可将兴趣值大的内容推荐给用户。具体在实施时,可设定一阈值,将计算\n所得的兴趣值与该阈值进行大小比较;后续在设定时刻向用户提供不小于该阈值的兴趣值\n所对应类别的信息。\n[0082] 若用户为多个时,用户需提交用户标识,步骤14在实施例,可以根据前述获得的兴\n趣值及接收的用户标识,在设定时刻向相应用户提供目标信息。\n[0083] 基于同一发明构思,本发明还提供一种向用户提供目标信息的设备,其结构如图3\n所示,包括:获取模块31、分类模块32、处理模块33、提供模块34;其中,获取模块31,用于获\n取用户浏览信息的历史行为数据,该历史行为数据包括信息的内容及浏览的时刻;分类模\n块32,用于对信息的内容进行分类,获得该信息归属于设定类别的概率;处理模块33,用于\n根据该概率及浏览的时刻,获得用户在设定时刻的兴趣值;提供模块34,用于根据该兴趣\n值,在设定时刻向用户提供目标信息。\n[0084] 一个实施例中,历史行为数据还包括用户标识;此时,处理模块33还可以用于根据\n用户标识、前述获得的概率及浏览的时刻,获得不同用户在设定时刻的兴趣值;如图4所示,\n此时提供模块34包括:接收单元341,用于接收用户标识;第一提供单元342,用于根据兴趣\n值及接收的用户标识,在设定时刻向相应用户提供目标信息。\n[0085] 如图5所示,一个实施例中,分类模块32可以包括:第一分类单元321,用于对信息\n的内容进行分类,获得信息归属的类别的个数;第二分类单元322,用于根据信息归属的类\n别的个数,获得信息归属于设定类别的概率。\n[0086] 如图6所示,一个实施例中,处理模块33包括:第一处理单元331,用于按如下公式,\n获得用户在浏览的时刻的兴趣值:\n[0087]\n[0088] 其中,k为遗忘因子,kα为记忆因子,weight0为在t时刻对应的概率,t为浏览的时\n刻;\n[0089] 第二处理单元332,用于按如下公式,获得用户在设定时刻的兴趣值:\n[0090]\n[0091] 其中,t为浏览的时刻,t+τ为设定时刻,timen≤t≤timen+1,τ=timen‑timen‑1,\nweightn为所述在设定时刻t+τ概率。\n[0092] 如图7所示,一个实施例中,提供模块34可以包括:比较单元343,用于将兴趣值与\n阈值进行大小比较;第二提供单元344,用于在设定时刻向用户提供不小于阈值的兴趣值所\n对应类别的信息。\n[0093] 本领域普通技术人员可以理解上述实施例方法中的全部或部分步骤是可以通过\n程序来指令相关的硬件完成,该程序可以存储于一计算机可读存储介质中,存储介质可以\n包括:ROM、RAM、磁盘或光盘等。\n[0094] 本发明实施例中,通过获取用户浏览信息的历史行为数据,该历史行为数据包括\n信息的内容及浏览的时刻;对信息的内容进行分类,获得该信息归属于设定类别的概率;根\n据获得的概率及浏览的时刻,获得用户在设定时刻的兴趣值;根据兴趣值,在设定时刻向用\n户提供目标信息,不但可以量化并按用户需求多粒度地描述用户对信息的兴趣,动态反映\n用户兴趣的变化过程,对用户未来的兴趣趋势作出预测,实施时也无需用户提供反馈信息,\n使用户操作相对简化。\n[0095] 显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精\n神和范围。这样,倘若对本发明的这些修改和变型属于本发明权利要求及其等同技术的范\n围之内,则本发明也意图包含这些改动和变型在内。
法律信息
- 2021-04-16
- 2021-04-16
- 2011-11-23
发明专利申请公布后的驳回
IPC(主分类): G06F 17/30
专利申请号: 200810103480.9
申请公布日: 2008.09.17
- 2008-11-05
- 2008-09-17
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |