著录项信息
专利名称 | 一种提供相关搜索的方法及系统 |
申请号 | CN200710177215.0 | 申请日期 | 2007-11-12 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2009-05-20 | 公开/公告号 | CN101436186 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 北京搜狗科技发展有限公司 | 申请人地址 | 北京市海淀区中关村东路1号院9号楼搜狐网络大厦9层01房间
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 北京搜狗科技发展有限公司 | 当前权利人 | 北京搜狗科技发展有限公司 |
发明人 | 梁斌;李刚 |
代理机构 | 北京集佳知识产权代理有限公司 | 代理人 | 逯长明 |
摘要
本发明公开了一种提供相关搜索的方法及系统,解决目前的搜索引擎不能提供更广泛的查询的问题。所述方法包括:建立网页信息的对象模型,对象模型中定义了对象属性;根据对象模型的定义,从网页信息中识别并抽取出对象的属性信息;度量对象间的关联关系;将关联关系符合预置条件的对象进行相关性推荐。本发明提出了一种新颖的搜索模式,在搜索范围上不仅能提供更精确的查找,还能够提供更广泛的查找,并提供了查询时的相关性推荐和浏览时的相关性推荐功能。基于这种搜索模式,用户第一次在查询模式下输入查询词并进入浏览模式后,就可以继续保持在浏览模式下点击查询推荐,达到查询浏览化的效果。
1.一种提供相关搜索的方法,其特征在于,包括:
建立网页信息的对象模型,对象模型中定义了对象属性;
根据对象模型的定义,从网页信息中识别并抽取出对象的属性信息;所述从网页信息中识别对象,包括:识别可能包含对象的网页,采用视觉分析技术,通过分析所述网页的源代码,判断网页中内容块在网页中的位置,从而识别所述对象;
度量对象间的关联关系;
将关联关系符合预置条件的对象进行相关性推荐。
2.根据权利要求1所述的方法,其特征在于,度量对象间关系的步骤包括:
统计对象关键词在网页信息中的出现次数;
根据所述出现次数计算对象关键词之间的相关性。
3.根据权利要求1所述的方法,其特征在于,度量对象间关系的步骤包括:
分别计算对象的同类属性间的相关性;
根据所述对象属性间的相关性计算对象间的相关性。
4.根据权利要求1所述的方法,其特征在于,还包括:度量同一个对象的属性之间的关联关系,将关联关系符合预置条件的对象属性进行相关性推荐。
5.根据权利要求1所述的方法,其特征在于,相关性推荐的步骤包括:在查询模式下,将匹配查询词的对象及其关联对象作为查询结果显示,查询操作进入浏览模式。
6.根据权利要求1所述的方法,其特征在于,相关性推荐的步骤包括:在浏览模式下,通过将网页对象的关联对象显示来提供查询功能。
7.根据权利要求1所述的方法,其特征在于,相关性推荐的步骤包括:将广告信息对象化,并将与热点广告相关联的其他广告进行推荐展示。
8.根据权利要求5、6或7所述的方法,其特征在于:所述关联对象按照相关程度进行推荐;具有相同或相近相关性的关联对象,根据竞价排名的顺序进行推荐。
9.根据权利要求1所述的方法,其特征在于,还包括:跟踪记录对象间关系的变化情况,分析得出与对象有关的热点事件。
10.根据权利要求1所述的方法,其特征在于,还包括:跟踪记录对象属性信息的变化情况,分析得出对该对象属性的评价。
11.一种提供相关搜索的系统,其特征在于,包括:
存储单元,用于建立网页信息的对象模型,对象模型中定义了对象属性;存储对象及其属性信息,并保存对象间的关联关系;
对象识别单元,用于根据对象模型的定义,从网页信息中识别出对象;所述从网页信息中识别出对象,包括:识别可能包含对象的网页,采用视觉分析技术,通过分析所述网页的源代码,判断网页中内容块在网页中的位置,从而识别所述对象;
信息抽取单元,用于从包含对象的网页信息中抽取出对象的属性信息;
对象间关系计算单元,用于度量对象间的关联关系;
应用单元,用于将关联关系符合预置条件的对象进行相关性推荐。
12.根据权利要求11所述的系统,其特征在于:所述存储单元分为存储对象及其属性信息的对象数据库,以及存储对象间关联关系的对象间关系数据库。
13.根据权利要求11所述的系统,其特征在于:所述对象间关系计算单元根据对象关键词在网页信息中的出现次数,或者根据对象的同类属性间的相关性,来计算对象间的相关性,实现度量对象间的关联关系。
14.根据权利要求11所述的系统,其特征在于:所述对象间关系计算单元还度量同一个对象的属性之间的关联关系,并通过应用单元将关联关系符合预置条件的对象属性进行相关性推荐。
15.根据权利要求11所述的系统,其特征在于:针对查询模式下的查询词,所述应用单元将匹配查询词的对象及其关联对象作为查询结果显示,查询操作进入浏览模式。
16.根据权利要求11所述的系统,其特征在于:针对浏览模式下的网页信息,所述应用单元通过将网页对象的关联对象显示来提供查询功能。
17.根据权利要求11所述的系统,其特征在于:针对对象化的广告信息,所述应用单元将与热点广告相关联的其他广告进行推荐展示。
18.根据权利要求15、16或17所述的系统,其特征在于:所述应用单元将关联对象按照相关程度进行推荐;具有相同或相近相关性的关联对象,根据竞价排名的顺序进行推荐。
一种提供相关搜索的方法及系统\n技术领域\n[0001] 本发明涉及网络技术,特别是涉及一种提供相关搜索的方法及系统。\n背景技术\n[0002] 目前的搜索引擎一般都具有相关搜索的功能,即根据用户的查询关键词提供与该关键词相关的信息。例如,用户在搜索引擎中输入关键词“刘德华”,搜索结果页面将显示与“刘德华”相关的网页链接,并提供“刘德华演唱会”、“刘德华歌曲”、“刘德华电影”、“刘德华博客”等一系列关键词推荐给用户,帮助用户使用更多的查询词搜索到需要的信息。这种查询推荐模式已经成为搜索领域最常见的方式。\n[0003] 查询推荐采用的技术主要是统计分析搜索引擎的查询日志,查询日志记录了用户输入的查询关键词及其出现次数、通过该关键词点击的网页链接及点击次数等信息,通过分析查询日志提取出更准确的查询词,将近期搜索排名靠前的相关信息推荐给用户。例如用户查询“刘德华”时,可以通过在历史的查询日志中发现查询“刘德华演唱会”的查询较多,因此给出“刘德华演唱会”。这种搜索模式的实质在于缩小搜索范围、精确查询词、提高搜索准确度,从而帮助用户得到更理想的搜索效果。\n[0004] 针对用户的不同搜索需求,还有一种不同于上述查询推荐的搜索模式,称为相关推荐,是指利用相关性进行的一些启发性的推荐。例如:在试听某歌曲时,给出听该歌曲的人还听过哪些歌曲;还有一些具有推荐性的门户网站,典型的如Amazon(亚马逊)购书,通常会给出购买此书的读者还买了哪些书的提示信息。这种相关推荐采用的是日志挖掘技术,通过分析网站日志并进行频繁模式的统计计算,得出哪些歌曲经常被放在一起听、哪些书籍经常被一起购买。\n[0005] 这种基于网站日志的相关推荐模式,针对用户在搜索广度上的需要为用户在搜索特定信息时带来了良好的搜索效果。但是,一个网站的日志信息通常是不对外公开的,只有网站拥有自己的日志信息,而实现相关推荐需要建立在分析多个不同网站日志的基础上,因此如何获取多个网站的日志信息就成为实现相关推荐的难题,如果没有充分的不同网站的日志信息,就无法提供整个搜索领域内的相关推荐。\n[0006] 综上所述,目前提供的搜索模式,较多的是为用户提供更精确的查询推荐,而在某些特定信息的查询上虽然提供了更广泛的相关推荐,但是受到需要收集网站日志的限制,不能在整个搜索领域内实现更大范围的相关推荐。\n发明内容\n[0007] 本发明所要解决的技术问题是实现一种提供相关搜索的方法及系统,以解决目前的搜索引擎不能提供更广泛的查询的问题。\n[0008] 为解决上述技术问题,根据本发明提供的具体实施例,本发明公开了以下技术方案:\n[0009] 一种提供相关搜索的方法,包括:\n[0010] 建立网页信息的对象模型,对象模型中定义了对象属性;\n[0011] 根据对象模型的定义,从网页信息中识别并抽取出对象的属性信息;所述从网页信息中识别出对象,包括:识别可能包含对象的网页,采用视觉分析技术,通过分析所述网页的源代码,判断网页中内容块在网页中的位置,从而识别所述对象;\n[0012] 度量对象间的关联关系;\n[0013] 将关联关系符合预置条件的对象进行相关性推荐。\n[0014] 其中,度量对象间关系的步骤包括:统计对象关键词在网页信息中的出现次数;\n根据所述出现次数计算对象关键词之间的相关性。\n[0015] 其中,度量对象间关系的步骤还可以包括:分别计算对象的同类属性间的相关性;\n根据所述对象属性间的相关性计算对象间的相关性。\n[0016] 所述方法还包括:度量同一个对象的属性之间的关联关系,将关联关系符合预置条件的对象属性进行相关性推荐。\n[0017] 优选的,相关性推荐的步骤包括:在查询模式下,将匹配查询词的对象及其关联对象作为查询结果显示,查询操作进入浏览模式。\n[0018] 优选的,相关性推荐的步骤包括:在浏览模式下,通过将网页对象的关联对象显示来提供查询功能。\n[0019] 优选的,相关性推荐的步骤包括:将广告信息对象化,并将与热点广告相关联的其他广告进行推荐展示。\n[0020] 优选的,所述关联对象按照相关程度进行推荐;具有相同或相近相关性的关联对象,根据竞价排名的顺序进行推荐。\n[0021] 所述方法还包括:跟踪记录对象间关系的变化情况,分析得出与对象有关的热点事件。\n[0022] 所述方法还包括:跟踪记录对象属性信息的变化情况,分析得出对该对象属性的评价。\n[0023] 一种提供相关搜索的系统,包括:\n[0024] 存储单元,用于建立网页信息的对象模型,对象模型中定义了对象属性;存储对象及其属性信息,并保存对象间的关联关系;\n[0025] 对象识别单元,用于根据对象模型的定义,从网页信息中识别出对象;所述从网页信息中识别出对象,包括:识别可能包含对象的网页,采用视觉分析技术,通过分析所述网页的源代码,判断网页中内容块在网页中的位置,从而识别所述对象;\n[0026] 信息抽取单元,用于从包含对象的网页信息中抽取出对象的属性信息;\n[0027] 对象间关系计算单元,用于度量对象间的关联关系;\n[0028] 应用单元,用于将关联关系符合预置条件的对象进行相关性推荐。\n[0029] 优选的,所述存储单元分为存储对象及其属性信息的对象数据库,以及存储对象间关联关系的对象间关系数据库。\n[0030] 其中,所述对象间关系计算单元根据对象关键词在网页信息中的出现次数,或者根据对象的同类属性间的相关性,来计算对象间的相关性,实现度量对象间的关联关系。\n[0031] 其中,所述对象间关系计算单元还度量同一个对象的属性之间的关联关系,并通过应用单元将关联关系符合预置条件的对象属性进行相关性推荐。\n[0032] 优选的,针对查询模式下的查询词,所述应用单元将匹配查询词的对象及其关联对象作为查询结果显示,查询操作进入浏览模式。\n[0033] 优选的,针对浏览模式下的网页信息,所述应用单元通过将网页对象的关联对象显示来提供查询功能。\n[0034] 优选的,针对对象化的广告信息,所述应用单元将与热点广告相关联的其他广告进行推荐展示。\n[0035] 优选的,所述应用单元将关联对象按照相关程度进行推荐;具有相同或相近相关性的关联对象,根据竞价排名的顺序进行推荐。\n[0036] 根据本发明提供的具体实施例,本发明公开了以下技术效果:\n[0037] 首先,提出了一种新颖的搜索模式,在搜索范围上不仅能提供更精确的查找,还能够提供更广泛的查找,即在查询深度和查询广度上为用户提供了更优质的搜索服务。所述搜索模式通过将可以对象化的网页信息对象化,并量化对象之间的关联关系,将具有相关性的对象推荐给用户,帮助用户发散思维,查找到其他感兴趣的信息。而且,与传统的基于网站日志的搜索模式不同,本发明基于搜索引擎系统中海量的网页信息,由于各个网站的网页信息是公开的,所以这种基于网页内容的搜索模式能够在搜索广度上提供整个搜索范围内的相关性推荐。\n[0038] 基于这种新的搜索模式,提供了网页查询模式下的相关性推荐功能,即在查询时能够将可以对象化的查询词对象化,并查找相关联的对象,给出继续查询的推荐;还提供了浏览模式下的查询推荐功能,即用户在浏览网页时,能够将可以对象化的网页信息对象化,并查找相关联的对象,在保持浏览模式下给出查询推荐。基于这种应用,用户第一次在查询模式下输入查询词并进入浏览模式后,就可以继续保持在浏览模式下点击查询推荐,达到查询浏览化的效果。\n[0039] 其次,对象和对象的关系发生变化都蕴含了重大事件的发生,因此通过跟踪记录对象间关系的变化情况,可以发现热点事件。而且,还可以对对象的属性进行跟踪分析,从而了解并评价对象的变化情况。\n[0040] 再次,可以将这种新的搜索模式应用于广告信息的发布与推送,让广告得到更多的展示机会。首先将广告信息对象化,然后在发布广告时,将相关联的其他广告进行推荐显示。所述应用一方面,可以在推送热点广告的同时,将用户关注或点击较少的广告与相关联的热点广告一起推送;另一方面,用户在购买广告关键词时,由于各种原因无法购买相应的关键词,则可以通过购买相关的广告对象关键词,得到类似的展示机会。\n附图说明\n[0041] 图1是本发明实施例所述提供相关搜索的步骤流程图;\n[0042] 图2是本发明实施例中包含对象的网页示意图;\n[0043] 图3是本发明实施例中具有推荐性的浏览模式示意图;\n[0044] 图4是本发明实施例所述提供相关搜索的系统结构图;\n[0045] 图5是图4所示系统实施例的数据处理示意图。\n具体实施方式\n[0046] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。\n[0047] 目前的搜索引擎所提供的查询功能都是通过缩小查询范围、精确查询词来提高搜索准确度,而本发明实施例提供了一种新颖的搜索模式,通过将对象化的技术和相关性推荐方法结合起来,不仅实现了更精确的查询,还能够帮助用户实现更广泛的查询。例如,用户查询“刘德华”,就能给出刘德华好友、刘德华演唱会、与刘德华相关的近期事件如张学友演唱会等更广范围的推荐信息。\n[0048] 在搜索引擎技术中,传统方法习惯使用关键词来标识一类信息,因此提供的搜索结果都基于关键词匹配。而本实施例基于对象化的技术方法,对象化是指使用一些概念来描述一个事物,每个对象赋予一定的属性,对象之间通过不同的属性特征来区别。在提供搜索服务时,基于对象化的搜索结果为与查询词匹配的对象,并且通过计算对象之间的关联关系将相关联的其他对象也一同推荐给用户。\n[0049] 参照图1,是本发明实施例所述提供相关搜索的步骤流程图。\n[0050] 步骤101,建立应用所需的对象模型。根据应用需求建立的每一类对象都会有一个模式,不同类型的对象有不同的模式,例如:\n[0051] 对象人,具有属性:姓名,年龄,性别,等等;\n[0052] 对象书,具有属性:书名,出版社,作者,等等;\n[0053] 对象Mp3,具有属性:型号,经销商,价格,等等。\n[0054] 步骤102,根据对象模型的定义,从网页信息中识别出对象。\n[0055] 首先,并不是所有的网页信息都包含了应用所需的对象信息;其次,网页中并不是所有的信息都是对象。因此,需要针对建立的对象模式,从搜索引擎系统存储的海量网页中识别出可能包含对象的网页,进一步再从这些网页中识别出对象信息。一个网页中如果没有出现对象模式定义的属性信息或出现的不够完整,则表示这个网页不包含对象;如果一个网页提到了这些属性,就可能是一个介绍对象的网页。例如,在识别对象人的过程中,如果发现了**先生、**女士,那么**就可能是人名。\n[0056] 对象识别可以采用视觉分析技术,通过分析网页源代码,判断网页中内容块在网页中的位置。通常,在网页的不同位置区,顶端可能是导航条,右边可能是广告,底端可能是无关信息,左边和中间的位置是视觉主体,在这些位置的内容块为网页信息的中心内容。但是,中心主体内容块也不一定是有价值的信息,例如采集的是一篇娱乐新闻,通过自然语言处理,并没有获取到对象主体及其相关属性,因为该网页是一篇谈论娱乐发展方向的文章,因此这些非对象化的网页也需要识别出来。\n[0057] 识别非对象化网页的方法可以通过投票算法等方法实现,例如识别对象书,如果一个网页中出现书的属性信息,就减去几分,如果没有出现,就加上几分,最后统计总分数是否达到阈值,如果达到就是非对象化网页,进行过滤处理,否则就可能是对象化网页。\n[0058] 需要说明的是,识别对象的方法并不限于以上说明,还可以采用其他方法从网页信息中识别出对象信息。\n[0059] 步骤103,根据对象模型的定义,从包含对象的网页信息中抽取出对象的属性信息。\n[0060] 在识别出中心主体内容块,以及可能存在可以量化的对象后,采用自然语言处理方法,如分词、断词、权重计算等一系列网页分析过程,可以提取出对象主体及其相关属性。\n例如,参照图2所示,是包含对象的网页示意图。抽取出的对象主体为刘德华,属性为巡回演唱会、工人体育场、订票电话,另外还包括重要的时间属性2007年10月。由于每类对象的属性信息不同,所以每个模式的抽取方法也不相同,例如对书的抽取,就要找到书名号,对价格的抽取要找到“¥”符号等。\n[0061] 步骤104,度量对象间的关联关系。\n[0062] 从海量的网页信息中抽取出对象的所有属性信息后,就需要对这些对象计算他们之间是否存在关联。本实施例提供了两种计算对象相关性的方法,一种是通过对象关键词在网页信息中的出现次数来计算,具体计算公式过程如下:\n[0063] \n[0064] 其中,p(x)表示x出现的次数,p(y)表示y出现的次数,p(x,y)表示x、y共同出现的次数。例如,刘德华和王菲经常出现在同一个网页中,或者经常被一同提起,通过上述公式计算可以得到他们直接的关系远近程度,假设在互联网海量网页信息中M个网页提到了刘德华,N个网页提到了王菲,X个网页即提到了刘德华也提到了王菲,则刘德华和王菲的关系为log(X/MN)。\n[0065] 在实际应用中,统计对象关键词的出现次数的时候,还可参考网页权威性因素和关键词文档频率等因素,赋予相应的权值调整。例如,对象关键词“王菲”在一些介绍娱乐信息的权威性网页中出现时就赋予较高的权值,在普通网页或与娱乐新闻根本不相关的网页中出现则忽略不计。\n[0066] 另一种计算对象相关性的方法是通过计算对象属性间的关系来度量对象间的关系,而且是将同类属性分别进行比较。例如,对象A具有属性p1、属性p2、...、属性pn,对象B具有属性q1、q2、...、属性qn,首先利用上述公式分别计算p1与q1、p2与q2、...、pn与qn的相关性,然后再取所有计算结果的平均值作为对象A与B的相关性计算结果,或者按照其他算法来根据对象属性间的相关性计算对象间的相关性,如取中位数法(即取中间的属性相关性计算结果)等。\n[0067] 当然,除了上述两种方法,还可以利用其他计算信息相关性的方法来获得对象的关联关系,例如通过计算两个对象被同时使用的频率来衡量他们之间的关系等方法,本发明在此不作限定。而且,度量对象间关系还可以参考搜索引擎系统中海量的查询日志,并结合海量的网页信息来计算。\n[0068] 步骤105,经过上述处理,可以将这种对象间的关联关系应用到搜索引擎服务中,下面将从五个方面进行说明。以下所述关联对象是指对象间的相关性计算结果满足一定阈值条件的两个对象,具体的阈值设置将根据实际情况进行调整,这也是对相关性计算结果的评价。\n[0069] 其一,提供了网页查询模式下的相关性推荐功能。即用户在搜索某个查询词时,给出关系密切的相关对象搜索,用户通过点击这些相关对象进行深入地搜索,这种搜索包括更精确范围的搜索,也包括更广阔范围的搜索。例如搜索刘德华,给出“2007北京演唱会”等相关主题或者“杨丽娟”等相关人物,用户点击“杨丽娟”就可以进入介绍另一个主题的页面。这种通过量化对象关系的方法,使用一个查询词就能带出全部相关主题,实现了查询浏览化的效果,便于用户第一次在查询模式下输入一次查询词,而在此后进入浏览模式进行继续查询。\n[0070] 其中,所述查询模式是指用户提交一次查询词(可能有多个词汇),通过搜索引擎的计算给出搜索结果页面,用户从中寻找感兴趣的查询结果,这种模式包含了键盘和鼠标的联合操作。所述浏览模式是指用户一般仅利用鼠标进行的网上冲浪方法,例如在新闻门户网站浏览新闻,对感兴趣的新闻逐条浏览,在此过程中很少使用到键盘操作。\n[0071] 其二,提供了浏览模式下的查询推荐功能,即实现了一种利用相关性进行的推荐性的网页浏览模式。例如,参照图3所示,用户在浏览一篇刘德华的新闻时,通过机器自动识别,得到这是一篇包含刘德华这个对象的网页,因此给出和刘德华关系紧密的其他对象以及相关事件,如王菲、杨丽娟、某娱乐公司、演唱会等。用户点击王菲后,继续给出刘德华和王菲的相关搜索条目以及王菲的相关搜索条目,如谢霆锋、窦唯等。这种浏览模式为用户提供传统浏览功能的同时,还提供了基于相关对象推荐的查询功能,便于用户保持网上冲浪的积极性。\n[0072] 其三,这种对象化的相关性推荐功能还可应用到广告发布领域。即将广告信息对象化,并将广告对象与用户输入的查询词或用户浏览的网页对象匹配起来,给出更加有效的广告展示方式。与传统的广告发布方式相比,这种将广告信息对象化的方式能让广告得到更多的展示机会。例如,商家购买不起广告对象关键词“奥运会”或者其他体育明星的查询词,就可以通过购买相对便宜的相关广告对象关键词得到相同或类似的展示机会。再举例,台球明星丁俊晖大家比较熟知,所以点击这个关键词的用户较多,而同是台球运动员的田鹏飞,点击率就相对少很多,但是通过这种对象化的方法,可以将“丁俊晖”和“田鹏飞”通过台球关联起来,用户在查询“丁俊晖”时,就可以把宣传“田鹏飞”的广告也一同展示出来。由此可知,对象化的方式实现了一种广告发布的新模式,比传统方式具有更好的广告展示效果。\n[0073] 其四,通过跟踪记录对象间关系的变化,可以在成千上万条信息中发现社会热点话题或热点事件。例如,系统发现近期刘德华和某其他明星的关系发生了变化,如更加紧密了,则其中蕴含着重大事件的发生,因此在这个变化时间内可以进行进一步地事件挖掘。\n[0074] 其五,通过跟踪记录对象属性信息的变化,可以给出对一个对象的分析评价。例如,汽车性能、蚝油的评价变化。再例如,系统发现刘德华的唱片公司属性发生变化,或者某电子产品的价格属性发生变化等,由此可以进行事件挖掘。\n[0075] 在上述实施例中,如果计算的是同一个对象的属性间的关联关系,则给出的相关性推荐即是更精确范围内的信息,这一点与传统搜索引擎提供的相关搜索功能类似。例如,用户输入“刘德华”,搜索结果页面将显示与“刘德华”相关的网页链接,并提供“刘德华演唱会”、“刘德华歌曲”、“刘德华电影”、“刘德华博客”等一系列关键词推荐给用户。\n[0076] 在上述提供相关性推荐的各种应用中,推荐的关联对象通常按照关联程度进行推荐,一般将最相关的对象首先推荐给用户,然后按照相关性排序依次推荐。而对于相关性相同或相近似范围内的多个关联对象,本实施例提供了竞价排名功能,即将竞价排名高的关联对象优先推荐给用户。例如,用户查询对象关键词“奥运会”或浏览以“奥运会”为主题的网页时,搜索系统会将相关性在90%以上的关联对象,按照竞价排名的先后进行推荐,如果某网站的链接排名靠前,就可以优先推荐展示。因此,利用这种网页信息对象化以及对象间关系的搜索模式,各广告商或网站经营者可以利用对象间的关联程度进行竞价排名,从而为自己的广告或网页链接提供更多的展示机会。\n[0077] 综上所述,本发明实施例提供的搜索模式,通过将对象化的方法和相关性推荐相结合,实现了在查询精度和查询广度上的搜索,通过将相关联的其他对象给予推荐,使得用户进入浏览模式后可以继续保持浏览状态而实现查询功能。而且,这种搜索模式基于网页内容,由于各个网站的网页信息是公开的,所以这种基于网页内容的搜索模式能够在搜索广度上提供整个搜索范围内的相关性推荐。\n[0078] 针对上述新的搜索模式,本发明还提供了一种提供相关搜索的系统实施例。参照图4,是所述系统的结构图,该系统包括对象数据库401、对象间关系数据库402、对象识别单元403、信息抽取单元404、对象间关系计算单元405、应用单元406。\n[0079] 对象数据库401用于存储对象及其属性信息,对象间关系数据库402用于存储对象间的关联关系。本实施例中,对象及其属性信息以及对象间的关联关系是分开存储,这样便于系统管理,但根据应用需要也可以保存到一个存储单元中。\n[0080] 对象识别单元403用于从海量的网页信息中识别出模型对应的对象信息,即确定哪些网页可能包含模型定义的对象。从海量网页中识别出可能包含对象的网页信息后,信息抽取单元404用于抽取出对象的各种属性信息,并保存到对象数据库401。由于对象模式不同,信息抽取方式也不同,就像不同设备有不同的驱动程序一样。对象识别和信息抽取方法如前所述,在此不再详述。\n[0081] 对象间关系计算单元405用于度量对象间的关联关系,并保存到对象间关系数据库402,即通过计算对象之间的相关性来衡量对象间的关联程度。计算相关性的方法有多种,例如,可以通过统计对象关键词在所有网页信息中的出现次数,然后代入以下公式进行计算得到,公式如下:\n[0082] \n[0083] 其中,p(x)表示x出现的次数,p(y)表示y出现的次数,p(x,y)表示x、y共同出现的次数。或者,利用以上公式通过计算属性之间的关系来度量对象间的关系,具体方法如前所述。\n[0084] 应用单元406用于根据对象间的关联关系,将相关联的对象进行查询或浏览推荐,从而提供各种优质的搜索服务。例如,提供网页查询模式下的相关性推荐功能,或者提供一种利用相关性进行的推荐性的网页浏览模式,即将与用户查询或浏览的对象相关联的对象一同推荐给用户,实现了查询浏览化的效果,便于用户保持网上冲浪的积极性。此外,通过跟踪记录对象间关系的变化,可以在成千上万条信息中发现社会热点话题或热点事件;通过跟踪记录对象属性信息的变化,可以给出对一个对象的分析评价。\n[0085] 通常,应用单元406按照对象间的关联程度进行关联对象的推荐,即将对象相关性高的关联对象推荐。而对于具有相同或相似相关性的关联对象,即对属于同一范围内的关联对象,应用单元406则按照用户的竞价排名顺序进行推荐。即应用单元406为用户提供了竞价排名功能,相关性在同一范围内的多个关联对象可以竞价,最后按照竞价结果进行相关性推荐。\n[0086] 应用单元406还提供了一种广告发布的新方式,由于将广告信息进行了对象化处理,所以在匹配广告时匹配的是广告对象关键词。与传统的基于关键词匹配的方法相比,这种对象化的广告匹配方式能够给广告带来更多的展示机会。因为如果按照关键词匹配,某类广告可能由于不匹配查询词而无法展示,但是如果以对象关键词进行匹配,该广告对象可能与查询词存在某种关联,因此通过这种关联关系,在展示与查询词匹配的广告对象时将相关联的广告对象也一同展示,这样该广告同样能够得到展示。\n[0087] 针对不同应用需求,还可以通过对象间关系计算单元405计算同一个对象属性间的关系,并通过应用单元406将相关联的属性信息进行推荐。这种相关性推荐提供的是缩小查找范围、精确查询的搜索服务。\n[0088] 上述各个单元的数据处理过程可参照图5所示:首先系统采集大量的网页,然后通过对象识别单元403确定哪些网页可能包含对象,并通过信息抽取单元404从可能包含对象信息的网页中抽取出对象的各种属性,存储到对象数据库401中;继续对对象数据库\n401中的数据进行处理,对象间关系计算单元405通过对象间关系计算和评价得到对象间的关联度,并保存到对象间关系数据库402;基于所述对象间关系数据库402,针对用户输入的查询词,如果该查询词可以对象化(即包含对象),则应用单元405查找对象间关系数据库402,将相关联的查询词推荐给用户;针对用户正在浏览的网页,如果该网页包含对象,则应用单元405查找对象间关系数据库402,将相关联的网页对象推荐给用户。所述系统能够帮助用户不断地在具有推荐或引导的情况下浏览或查询需要的各种信息,得到更理想的搜索效果。\n[0089] 图4所示系统中未详述的部分可以参见图1所示方法的相关部分,为了篇幅考虑,在此不再详述。\n[0090] 以上对本发明所实现的一种提供相关搜索的方法及系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
法律信息
- 2012-09-05
- 2009-11-25
- 2009-05-20
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2005-02-23
|
2002-10-28
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |