著录项信息
专利名称 | 一种自适应的因特网目录网页推荐方法 |
申请号 | CN03131974.2 | 申请日期 | 2003-06-24 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2004-01-28 | 公开/公告号 | CN1471020 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | 暂无 | IPC分类号 | 暂无查看分类表>
|
申请人 | 南京大学 | 申请人地址 | 江苏省南京市汉口路22号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 南京大学 | 当前权利人 | 南京大学 |
发明人 | 周志华 |
代理机构 | 南京苏高专利事务所 | 代理人 | 柏尚春 |
摘要
本发明公开了一种自适应的因特网目录网页推荐方法,其方法包括以下步骤:用户通过客户机提交浏览路径,因特网网络中间服务器在获取网页后,先判断其是否是目录网页,然后将目录网页交给目录网页推荐部分,否则交给普通网页推荐部分处理,推荐结果通过客户机提交给用户。本发明的优点是不需要用户指出以往浏览的目录网页中具体感兴趣的链接内容,就可以根据用户的个人偏好和使用情况进行Internet目录网页推荐,以辅助提高Internet网络中间件服务器装置的性能。
1.一种自适应的因特网目录网页推荐方法,其方法包括以下步骤:用户通过客户机提交浏览路径,因特网网络中间服务器在获取网页后,先判断其是否是目录网页,然后将目录网页交给目录网页推荐部分,否则交给普通网页推荐部分处理,推荐结果通过客户机提交给用户;其特征是:所述的目录网页推荐部分包括以下步骤:(1)接收目录网页;(2)若历史数据集不为空,则执行步骤(3),否则转到步骤(18);(3)从当前目录网页上找出一个链接;(4)若链接包含的字数不少于预设阈值t,则执行步骤(5),否则转到步骤(8);(5)取得链接网页的内容;(6)去掉链接网页内容中无实意的词后进行字频统计;(7)产生多示例包中的一个示例;(8)若目录网页上没有其他未考察的链接,则执行步骤(9),否则找出一个未考察的链接并转到步骤(4);(9)将步骤(3)至(8)产生的若干示例集中在一起成为一个多示例包B;(10)计算B与历史数据集中保存的每个多示例包之间的距离;(11)将B的决定集置为空;(12)从历史数据集中找出一个多示例包B’;(13)若与B距离最近的r个多示例包中包含B’,则将B’加入B的决定集;(14)若与B’距离最近的c个多示例包中包含B,则将B’加入B的决定集;(15)若历史数据集中没有其他未考察的多示例包,则执行步骤(16),否则找出一个未考察的多示例包,将其作为B’并转到步骤(13);(16)若B的决定集中正多示例包数不少于负多示例包数,则推荐结果为“推荐”,否则推荐结果为“不推荐”;(17)将推荐结果提交给用户;(18)若用户为当前目录网页提供了反馈,则执行步骤(19),否则转到步骤(21);(19)若已对当前目录网页进行了知识表示处理,则执行步骤(20),否则执行步骤(3)至(9)后再执行步骤(20);(20)若用户反馈是表示当前目录网页中包含了其感兴趣的链接内容,则将对应的多示例包作为正多示例包存入历史数据集,否则将其作为负多示例包存入历史数据集;(21)结束;其中t、r、c为预设的整数值。
2.根据权利要求1所述的一种自适应的因特网目录网页推荐方法,其特征是:通过以下公式计算步骤(10)中B与历史数据集中保存的每个多示例包之间的距离:Dist(X,Y)=Mimx∈X,y∈Y(1-Σi,j=1xi=Yjn1n)]]>其中X和Y分别表示两个不同的多示例包,Dist(X,Y)表示X和Y之间的距离;x表示X中的一个示例,y表示Y中的一个示例,xi表示x中的第i个字,yj表示y中的第j个字,n表示X和Y的每个示例中所包含的字数。
一种自适应的因特网目录网页推荐方法\n一、技术领域本发明涉及因特网(Internet)网络中间服务器,特别涉及一种自适应地根据用户的个人偏好和使用情况进行Internet目录网页推荐的方法。\n二、背景技术\nInternet网络中间服务器是在客户机与Internet之间的一道屏障,该装置通常为客户机提供防火墙等服务,除此之外,该装置还保存了大量用户的历史浏览记录,随着用户使用次数的增多,该装置可以自适应地根据用户的使用习惯和偏好进行调整和改进,从而帮助用户提高信息获取的效率。\n在接收到用户通过客户机提交的浏览路径时,该装置首先根据该路径获取新网页,然后利用网页推荐方法根据用户的历史浏览记录对新网页的内容进行分析,从而判断出用户是否会对新网页中包含的内容感兴趣,并以友善的方式告知用户,以减少其在不感兴趣的网页上浪费时间。在通常情况下,可利用的历史浏览记录必须是得到用户的完全反馈,即用户已明确指出对具体哪些内容感兴趣。\n用户在浏览Internet上的信息时经常会遇到目录网页,这些网页仅提供标题或摘要,而把具体的内容放在其链接到的下级网页中。例如各大门户网站(如www.sina.com.cn)都包含了大量的目录网页。由于目录网页包含大量的链接,难以要求用户花费大量时间来指出其感兴趣的具体每个链接,只能请用户反馈该目录网页中“是”或“不是”包含了其感兴趣的链接内容,因此,普通的网页推荐方法无法处理此种情况,而目前尚没有专门针对目录网页的推荐方法,这使得Internet网络中间件服务器装置在遇到目录网页时难以有效地提供推荐服务。\n三、发明内容\n本发明的目的是针对现有技术难以很好地进行Internet目录网页推荐的问题,提供一种自适应的Internet目录网页推荐方法,以辅助提高Internet网络中间件服务器装置的性能。\n为实现本发明所述目的,本发明提供一种利用机器学习中的多示例学习技术对Internet目录网页进行分析从而进行目录网页推荐的方法,该方法包括以下步骤:(1)接收目录网页;(2)若历史数据集不为空,则执行步骤3,否则转到步骤18:(3)从当前目录网页上找出一个链接;(4)若链接包含的字数不少于预设阈值t,则执行步骤5,否则转到步骤8;(5)取得链接网页的内容;(6)去掉链接网页内容中无实意的词后进行字频统计;(7)产生多示例包中的一个示例;(8)若目录网页上没有其他未考察的链接,则执行步骤9,否则找出一个未考察的链接并转到步骤4;(9)将步骤3至8产生的若干示例集中在一起成为一个多示例包B;(10)计算B与历史数据集中保存的每个多示例包之间的距离;(11)将B的决定集置为空;(12)从历史数据集中找出一个多示例包B’;(13)若与B距离最近的r个多示例包中包含B’,则将B’加入B的决定集;(14)若与B’距离最近的c个多示例包中包含B,则将B’加入B的决定集;(15)若历史数据集中没有其他未考察的多示例包,则执行步骤16,否则找出一个未考察的多示例包,将其作为B’并转到步骤13;(16)若B的决定集中正多示例包数不少于负多示例包数,则推荐结果为“推荐”,否则推荐结果为“不推荐”;(17)将推荐结果提交给用户;(18)若用户为当前目录网页提供了反馈,则执行步骤19,否则转到步骤21;(19)若已对当前目录网页进行了知识表示处理,则执行步骤20,否则执行步骤3至9后再执行步骤20;(20)若用户反馈是表示当前目录网页中包含了其感兴趣的链接内容,则将对应的多示例包作为正多示例包存入历史数据集,否则将其作为负多示例包存入历史数据集;(21)结束。\n本发明的优点是不需要用户指出以往浏览的目录网页中具体感兴趣的链接内容,就可以根据用户的个人偏好和使用情况进行Internet目录网页推荐,以辅助提高Internet网络中间件服务器装置的性能。\n下面将结合附图对最佳实施例进行详细说明。\n四、附图说明\n图1是Internet网络中间件服务器在处理网页推荐时的示意图。\n图2是本发明方法的流程图。\n图3是知识表示处理过程的流程图。\n图4是推荐处理过程的流程图。\n五、具体实施方式\nInternet网络中间件服务器是客户机与Internet之间的屏障,而用户则通过客户机与Internet网络中间件服务器发生关系。\n如图1所示,用户通过客户机提交浏览路径,Internet网络中间件服务器在获取网页后,先判断其是否目录网页,然后将目录网页交给目录网页推荐部分,否则则交给普通网页推荐部分处理,推荐结果通过客户机提交给用户,用户还可以通过客户机提交其反馈。本发明主要涉及图1中目录网页推荐部分,即图1中的步骤1。\n本发明的方法如图2所示。步骤10是初始动作。步骤12接收目录网页。步骤14判断当前历史数据集是否为空,如果历史数据集不为空,则具有进行目录网页推荐的条件,执行步骤16,否则不具备进行目录网页推荐的条件,转到步骤22。历史数据集在用户初次通过Internet网络中间件服务器访问Internet时为空,随着用户使用次数的增加,其规模将逐渐扩大,在必要时可以进行适当的清理。步骤16对当前处理的目录网页进行知识表示处理,其结果是将该目录网页表示为一个多示例包,以便在步骤18利用多示例学习技术进行分析和推荐处理。步骤16和步骤18将在后面的部分分别结合图3和图4进行具体介绍。步骤20将推荐结果提交给用户。无论当前目录网页是否已由Internet网络中间件服务器进行了推荐,用户均可对其给出反馈,即表示该目录网页中“是”或“不是”包含了用户感兴趣的链接内容。图2的步骤22判断用户是否给出了反馈,如果给出了反馈,则通过执行步骤24至26,将当前目录网页保存起来以辅助将来的推荐处理;否则不需保存当前目录网页,转到步骤28。步骤24判断是否对当前目录网页进行过知识表示处理。如果当前目录网页由Internet网络中间件服务器进行过推荐,则已对其进行过知识表示处理,所以直接执行步骤26;否则要先执行步骤16之后再执行步骤26。步骤26根据用户的反馈情况,将当前目录网页对应的多示例包保存到历史数据集中。如果用户表示当前目录网页中“是”包含了其感兴趣的链接内容,则将该目录网页对应的多示例包作为正多示例包存入历史数据集;否则将其作为负多示例包存入历史数据集。步骤28是结束状态。\n图3详细说明了图2的步骤16,其作用是将目录网页表示为多示例学习技术所需要的知识表示形式,即多示例包。图3的步骤160是起始状态。步骤161从当前正在考察的目录网页中找出一个链接。步骤162对该链接的字数进行分析,如果字数不少于t,则认为这是一个需要分析的链接,执行步骤163;否则认为该链接是指向广告等与推荐任务无关的内容,因此不对其进行分析,转到步骤168。这里t是一个预设整数值,例如对中文页面t可以设为6个汉字,而对英文页面t可以设为4个英文单词。\n图3的步骤163根据当前链接的URL地址找到链接到的网页。步骤164获得网页的内容。步骤165要将一些对推荐任务没有实际意义的字去掉,例如中文网页上的“啊”、“吗”、“呢”,英文网页上的“the”、“a”、“is”等。然后,步骤166对网页上其余的文本内容进行字频统计,即统计出不同的字出现的频率。步骤167找出出现频率最高n个字组成一个项向量,例如[t1,t2,…,tn],其中t1为出现频率最高的字,t2为出现频率第二高的字,如此类推,这里n是一个预设整数值例如10。得到的项向量就是对应于当前目录网页的多示例包中的一个示例。步骤168判断当前目录网页是否还有未考察的链接,如果有就执行步骤169找出一个未考察的链接,并转到步骤162;否则就执行步骤170将所有示例组成一个多示例包,这里的多示例包是一个项向量的集合,例如假设有m个示例,则该多示例包为{[t11,t12,…,t1n],[t21,t22,…,t2n],…,[tm1,m2,…,tmn]},其中[ti1,ti2,…,tin]是第i个示例,tij是第i个示例所对应的网页中字频第j高的字,步骤171是图3的结束状态。\n图4详细说明了图2的步骤18,其作用是利用多示例学习技术对目录网页所对应的多示例包进行分析,从而对目录网页作出推荐。图4的步骤180是起始状态。步骤181接收由图2的步骤16(即图3)生成的多示例包,为叙述方便,下面称该多示例包为B。步骤182计算B与历史数据集中保存的每个多示例包的距离,这里的距离计算使用了本发明专门设计的计算式:Dist(X,Y)=Minx∈X,y∈Y(1-Σi,j=1xi=yjn1n)]]>其中X和Y分别表示两个不同的多示例包,Dist(X,Y)表示X和Y之间的距离,X和Y越相似,其距离越小。Min(Z)表示对Z取最小值。x表示X中的一个示例,y表示Y中的一个示例,xi表示x中的第i个字,yj表示y中的第j个字。n表示X和Y的每个示例中所包含的字数,即图4的步骤167中的n。\n图4的步骤183将B的决定集置为空。B的决定集是一个由历史数据集中的若干个多示例包所组成的集合,这些多示例包将决定对B的推荐结果。步骤184从历史数据集中找出一个多示例包,为叙述方便,下面称它为B’。步骤185将B与历史数据集中的多示例包一起考虑,判断B’是否是与B最近的r个多示例包中的一个,如果是,则执行步骤186将B’加入B的决定集;否则就转到步骤187。这里r是一个预设整数值例如2。步骤187将B与历史数据集中的多示例包一起考虑,判断B是否是与B’最近的c个多示例包中的一个,如果是,则执行步骤186将B’加入B的决定集;否则就转到步骤188。这里c是一个预设整数值例如4。步骤188判断历史数据集中是否还有未被考察过的多示例包,如果有,则执行步骤189,找出一个未被考察的多示例包,用B’表示该包,并转到步骤185;否则就执行步骤190。\n图4的步骤190对B的决定集中的多示例包进行统计,如果正多示例包的数目不少于负多示例包的数目,则B所对应的目录网页就被认为包含用户感兴趣的链接内容,即执行步骤191,得出结果“推荐”;否则B所对应的目录网页就被认为不包含用户感兴趣的链接内容,即执行步骤192,得出结果“不推荐”。步骤193为图4的结束状态。
法律信息
- 2010-09-01
未缴年费专利权终止
IPC(主分类): G06F 17/00
专利号: ZL 03131974.2
申请日: 2003.06.24
授权公告日: 2005.04.20
- 2005-04-20
- 2004-04-07
- 2004-01-28
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |