著录项信息
专利名称 | 一种更新搜索引擎网址库方法及装置 |
申请号 | CN201210089025.4 | 申请日期 | 2012-03-29 |
法律状态 | 暂无 | 申报国家 | 中国 |
公开/公告日 | 2012-09-12 | 公开/公告号 | CN102663049A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 奇智软件(北京)有限公司 | 申请人地址 | 天津市滨海高新区滨海科技园高新六路39号9-3-401号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 三六零科技有限公司 | 当前权利人 | 三六零科技有限公司 |
发明人 | 李铁钧;马良 |
代理机构 | 北京华沛德权律师事务所 | 代理人 | 刘丽君 |
摘要
本发明公开了一种更新搜索引擎网址库的方法及装置,其中,所述方法包括:在浏览器端对用户浏览网页的行为进行监控;获取被浏览网页的相关信息,并将所述被浏览网页的相关信息上报给搜索引擎服务器;其中,所述被浏览网页的相关信息包括被浏览网页的唯一性标识信息;搜索引擎服务器根据从网络中各用户浏览器端收集到的所述被浏览网页的相关信息,更新搜索引擎网址库。通过本发明,能够比较快速和全面的发现并收集互联网上的网页网址,进而更新搜索引擎的网址库。
1.一种更新搜索引擎网址库的方法,其特征在于,包括:
当用户使用浏览器浏览网页时,所述浏览器对用户浏览网页的行为进行监控;
所述浏览器获取所述用户使用浏览器进行浏览时的被浏览网页的相关信息,并将所述被浏览网页的相关信息上报给搜索引擎服务器;其中,所述被浏览网页的相关信息包括被浏览网页的唯一性标识信息;
搜索引擎服务器根据从网络中各用户浏览器端收集到的所述被浏览网页的相关信息,更新搜索引擎网址库;所述更新搜索引擎网址库,基于用户对网页的访问。
2.根据权利要求1所述的方法,其特征在于,还包括:
搜索引擎服务器根据从网络中各用户浏览器端收集到的所述被浏览网页的相关信息,确定搜索引擎网址库中网址的优先级,以便搜索引擎服务器根据所述优先级对搜索引擎网址库中的网址进行下载。
3.根据权利要求2所述的方法,其特征在于,所述搜索引擎服务器根据从网络中各用户浏览器端收集到的所述被浏览网页的相关信息,确定搜索引擎网址库中网址的优先级,包括:
搜索引擎服务器根据从网络中各用户浏览器端收集到的所述被浏览网页的相关信息,统计被浏览网页的访问次数,根据被浏览次数确定搜索引擎网址库中网址的优先级。
4.根据权利要求2所述的方法,其特征在于,所述被浏览网页的相关信息,还包括:
被浏览网页的打开速度、停留时间和/或来源网页的唯一性标识信息;
所述搜索引擎服务器根据从网络中各用户浏览器端收集到的所述被浏览网页的相关信息,确定搜索引擎网址库中网址的优先级,包括:
搜索引擎服务器根据从网络中各用户浏览器端收集到的所述被浏览网页的打开速度、停留时间和/或来源网页的唯一性标识信息,确定搜索引擎网址库中网址的优先级。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述获取被浏览网页的相关信息,将所述被浏览网页的相关信息上报给搜索引擎服务器包括:
监控到用户浏览网页时,获取被浏览网页的相关信息,并将所述被浏览网页的相关信息上报给搜索引擎服务器;
或者,
监控到用户浏览网页时,获取被浏览网页的相关信息,并记录所述被浏览网页的相关信息,当所述记录的被浏览网页的相关信息达到预置条件时,上报给搜索引擎服务器。
6.一种更新搜索引擎网址库的装置,其特征在于,包括:
监控单元,用于当用户使用浏览器浏览网页时,所述浏览器对用户浏览网页的行为进行监控;
信息获取及上报单元,用于所述浏览器获取所述用户使用浏览器进行浏览时的被浏览网页的相关信息,并将所述被浏览网页的相关信息上报给搜索引擎服务器;其中,所述被浏览网页的相关信息包括被浏览网页的唯一性标识信息;
更新单元,用于搜索引擎服务器根据从网络中各用户浏览器端收集到的所述被浏览网页的相关信息,更新搜索引擎网址库;所述更新搜索引擎网址库,基于用户对网页的访问。
7.根据权利要求6所述的装置,其特征在于,还包括:
优先级确定单元,用于搜索引擎服务器根据从网络中各用户浏览器端收集到的所述被浏览网页的相关信息,确定搜索引擎网址库中网址的优先级,以便搜索引擎服务器根据所述优先级对搜索引擎网址库中的网址进行下载。
8.根据权利要求7所述的装置,其特征在于,所述优先级确定单元,包括:
第一优先级确定子单元,用于搜索引擎服务器根据从网络中各用户浏览器端收集到的所述被浏览网页的相关信息,统计被浏览网页的访问次数,根据被浏览次数确定搜索引擎网址库中网址的优先级。
9.根据权利要求7所述的装置,其特征在于,所述被浏览网页的相关信息,还包括:
被浏览网页的打开速度、停留时间和/或来源网页的唯一性标识信息;
所述优先级确定单元,包括:
第二优先级确定子单元,用于搜索引擎服务器根据从网络中各用户浏览器端收集到的所述被浏览网页的打开速度、停留时间和/或来源网页的唯一性标识信息,确定搜索引擎网址库中网址的优先级。
10.根据权利要求6至9任一项所述的装置,其特征在于,所述信息获取及上报单元包括:
第一获取及上报子单元,用于监控到用户浏览网页时,获取被浏览网页的相关信息,并将所述被浏览网页的相关信息上报给搜索引擎服务器;
或者,
第二获取及上报子单元,用于监控到用户浏览网页时,获取被浏览网页的相关信息,并记录所述被浏览网页的相关信息,当所述记录的被浏览网页的相关信息达到预置条件时,上报给搜索引擎服务器。
一种更新搜索引擎网址库方法及装置\n技术领域\n[0001] 本发明涉及计算机技术领域,特别是涉及一种更新搜索引擎网址库的方法及装置。\n背景技术\n[0002] 随着计算机的普及和互联网的发展,人们对网络的使用越来越频繁,计算机网络逐渐成为人们日常生活中必不可少的工具,而搜索引擎因其本身能够提供的各种丰富的信息服务,给用户提供了方方面面的信息和数据,在人们的日常生活中得到了广泛的应用,给人们日常的生产生活带来了巨大的便利。\n[0003] 搜索引擎网站是互联网上专门提供检索服务的一类网站,这些站点的服务器通过网络搜索软件或网络登录等方式,将互联网上的大量网站的页面信息收集起来,经过加工处理后,建立信息数据库和索引数据库,通过一定的接口对用户提出的检索请求做出响应,提供用户所需的信息。作为搜索引擎运行的关键一环,将互联网上不断出现的新的页面和信息收集起来,是搜索引擎网站提供服务的基础。搜索引擎网站需要不断更新自己的网址库,下载网址库中的网址对应的网页,再将这些网页的内容信息进行加工和整合,建立信息数据库和索引数据库,以便为用户提供信息检索和查询服务。在这个过程中,如何高效地收集互联网上不断出现的网址,是搜索引擎需要重点考虑的问题之一。\n[0004] 一个典型的搜索引擎系统,通常由网络爬虫系统、索引生成系统和在线检索系统构成。其中网络爬虫系统(又称网络机器人、网络蜘蛛),是一个搜索引擎系统的重要基础组成部分。搜索引擎通常会使用这种网络爬虫系统收集互联网中的网址,生成搜索引擎网址库,进而对网址库中的网址对应的网页进行下载及分析,以便生成信息数据库和索引数据库。现有技术中的网络爬虫系统通常从一个或一组互联网页面开始,对页面做链接分析,从中获取新的网址,再对新的网址对应的网页进行下载,再从新下载的页面中分析并获取新的网址,如此不断循环,以达到不断的发现互联网上新的页面的目的。然而现实的情况是,在当今互联网高速发展的情况下,网页的数量以极高的速度与日俱增的同时,在互联网上依然存在着大量没有被搜索引擎系统编列索引的网页,其中包括没有被外部链接指向的网页,这种网页由于不能被网络爬虫程序以传统的方式发现并下载,通常被称为“暗网”。\n[0005] 因此,迫切需要本领域技术人员解决的技术问题就在于,如何提供一种更高效的更新搜索引擎网址库的方法,使搜索引擎能更加全面的收集互联网上的网页网址,更好的满足用户使用互联网搜索引擎进行信息检索的需要。\n发明内容\n[0006] 本发明提供了一种更新搜索引擎网址库的方法,能够比较快速和全面的发现并收集互联网上的网页网址,进而更新搜索引擎的网址库。\n[0007] 本发明提供了如下方案:\n[0008] 一种更新搜索引擎网址库的方法,包括:\n[0009] 在浏览器端对用户浏览网页的行为进行监控;\n[0010] 获取被浏览网页的相关信息,并将所述被浏览网页的相关信息上报给搜索引擎服务器;其中,所述被浏览网页的相关信息包括被浏览网页的唯一性标识信息;\n[0011] 搜索引擎服务器根据从网络中各用户浏览器端收集到的所述被浏览网页的相关信息,更新搜索引擎网址库。\n[0012] 其中,还包括:\n[0013] 搜索引擎服务器根据从网络中各用户浏览器端收集到的所述被浏览网页的相关信息,确定搜索引擎网址库中网址的优先级,以便搜索引擎服务器根据所述优先级对搜索引擎网址库中的网址进行下载。\n[0014] 其中,所述搜索引擎服务器根据从网络中各用户浏览器端收集到的所述被浏览网页的相关信息,确定搜索引擎网址库中网址的优先级,包括:\n[0015] 搜索引擎服务器根据从网络中各用户浏览器端收集到的所述被浏览网页的相关信息,统计被浏览网页的访问次数,根据被浏览次数确定搜索引擎网址库中网址的优先级。\n[0016] 其中,所述被浏览网页的相关信息,还包括:\n[0017] 被浏览网页的打开速度、停留时间和/或来源网页的唯一性标识信息;\n[0018] 所述搜索引擎服务器根据从网络中各用户浏览器端收集到的所述被浏览网页的相关信息,确定搜索引擎网址库中网址的优先级,包括:\n[0019] 搜索引擎服务器根据从网络中各用户浏览器端收集到的所述被浏览网页的打开速度、停留时间和/或来源网页的唯一性标识信息,确定搜索引擎网址库中网址的优先级。\n[0020] 其中,所述获取被浏览网页的相关信息,将所述被浏览网页的相关信息上报给搜索引擎服务器包括:\n[0021] 监控到用户浏览网页时,获取被浏览网页的相关信息,并将所述被浏览网页的相关信息上报给搜索引擎服务器;\n[0022] 或者,\n[0023] 监控到用户浏览网页时,获取被浏览网页的相关信息,并记录所述被浏览网页的相关信息,当所述记录的被浏览网页的相关信息达到预置条件时,上报给搜索引擎服务器。\n[0024] 一种更新搜索引擎网址库的装置,包括:\n[0025] 监控单元,用于在浏览器端对用户浏览网页的行为进行监控;\n[0026] 信息获取及上报单元,用于获取被浏览网页的相关信息,并将所述被浏览网页的相关信息上报给搜索引擎服务器;其中,所述被浏览网页的相关信息包括被浏览网页的唯一性标识信息;\n[0027] 更新单元,用于搜索引擎服务器根据从网络中各用户浏览器端收集到的所述被浏览网页的相关信息,更新搜索引擎网址库。\n[0028] 其中,还包括:\n[0029] 优先级确定单元,用于搜索引擎服务器根据从网络中各用户浏览器端收集到的所述被浏览网页的相关信息,确定搜索引擎网址库中网址的优先级,以便搜索引擎服务器根据所述优先级对搜索引擎网址库中的网址进行下载。\n[0030] 其中,所述优先级确定单元,包括:\n[0031] 第一优先级确定子单元,用于搜索引擎服务器根据从网络中各用户浏览器端收集到的所述被浏览网页的相关信息,统计被浏览网页的访问次数,根据被浏览次数确定搜索引擎网址库中网址的优先级。\n[0032] 其中,所述被浏览网页的相关信息,还包括:\n[0033] 被浏览网页的打开速度、停留时间和/或来源网页的唯一性标识信息;\n[0034] 所述优先级确定单元,包括:\n[0035] 第二优先级确定子单元,用于搜索引擎服务器根据从网络中各用户浏览器端收集到的所述被浏览网页的打开速度、停留时间和/或来源网页的唯一性标识信息,确定搜索引擎网址库中网址的优先级。\n[0036] 其中,所述信息获取及上报单元包括:\n[0037] 第一获取及上报子单元,用于监控到用户浏览网页时,获取被浏览网页的相关信息,并将所述被浏览网页的相关信息上报给搜索引擎服务器;\n[0038] 或者,\n[0039] 第二获取及上报子单元,用于监控到用户浏览网页时,获取被浏览网页的相关信息,并记录所述被浏览网页的相关信息,当所述记录的被浏览网页的相关信息达到预置条件时,上报给搜索引擎服务器。\n[0040] 根据本发明提供的具体实施例,本发明公开了以下技术效果:\n[0041] 通过本发明,可以在浏览器端对用户浏览网页的行为进行监控,并将获取到的被浏览网页的相关信息上报给搜索引擎服务器,搜索引擎服务器能够利用从网络中各用户浏览器端收集到的所述被浏览网页的相关信息,更新搜索引擎网址库,使得搜索引擎能够在一定程度上发现没有被外部链接指向到的网页,进而充实了搜索引擎的网址库,以及搜索引擎的信息资源。\n[0042] 进一步的,通过本发明,搜索引擎服务器根据从网络中各用户浏览器端收集到的所述被浏览网页的相关信息,更加合理的从网页的级别确定搜索引擎网址库中网址的优先级,以便搜索引擎服务器根据网址的优先级对搜索引擎网址库中的网址进行下载分析。\n附图说明\n[0043] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。\n[0044] 图1是本发明实施例提供的方法的流程图;\n[0045] 图2是本发明实施例提供的装置的示意图。\n具体实施方式\n[0046] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。\n[0047] 参见图1,本发明实施例提供的方法包括以下步骤:\n[0048] S101:在浏览器端对用户浏览网页的行为进行监控;\n[0049] 用户浏览互联网上的网页,一般会通过使用某一种浏览器进行,比如微软公司的视窗Windows操作系统自带的浏览器Internet Explorer(简称IE),以及其他第三方浏览器。所谓第三方浏览器,通常指在Windows操作系统上运行的非IE的浏览器软件,这类第三方浏览器通常会因其有着针对用户的丰富的独特功能设计和个性化扩展,为用户提供了许多方便的应用。\n[0050] 由于实际应用中,人们使用计算机的应用环境,如操作系统、浏览器类型等的不尽相同,对用户浏览网页行为的监控可以有多种实现方式:\n[0051] 例如使用一种带有监控功能的第三方浏览器程序,在用户使用浏览器浏览网页时,对用户浏览网页的行为进行监控。\n[0052] 另外针对支持插件扩展功能的浏览器,对用户浏览网页的行为的监控,也可以由随浏览器启动的插件程序来实现。插件是按照一定的应用程序接口规范编写出来的、能被主程序调用以实现处理某种事务的应用程序,例如某些下载辅助类软件的插件,用户安装这类插件程序后,在启动浏览器时,这些插件会随浏览器启动,并监视用户的点击操作以及系统剪切板信息,一旦用户的点击或者对页面链接进行复制操作,从而触发对某一互联网资源的下载,这类插件就会启动下载辅助软件,对用户选择的互联网资源进行下载。在本发明实施例中,对于不具备所需对用户浏览网页的行为进行监控功能,但可以支持的浏览器插件扩展的浏览器来说,通过带有用户浏览行为监控功能的插件程序来实现对用户浏览网页的行为的监控,也是一种有效的实现对用户浏览网页的行为进行监控的手段。\n[0053] 又或者,对用户浏览行为的监控,可以由非浏览器程序及浏览器插件程序,比如某种监控程序或某种程序监控组件来完成,即在用户使用浏览器浏览网页是,由独立与浏览器之外的监控程序或者程序监控组件对用户发出的对目标网页浏览请求进行检测,以及对用户浏览网页的行为进行监控。\n[0054] S102:当监控到用户浏览网页时,获取被浏览网页的相关信息,并将所述被浏览网页的相关信息上报给搜索引擎服务器;其中,所述被浏览网页的相关信息包括被浏览网页的网页的唯一性标识;\n[0055] 在用户对目标网页发起浏览时,通过对用户的浏览行为进行监控,获取包括用户浏览网页网页的唯一性标识的相关信息,并将这些相关信息上报给搜索引擎服务器。其中,关于网页的唯一性标识,可以是网页的URL(Uniform/Universal Resource Locator,统一资源定位符),或者,在一定程度上,网页标题或者网页内容的MD5值等,也可以作为网页的唯一性标识,因此,将其上报给服务器也是可以的。\n[0056] 具体实现时,这种将这些相关信息上报给搜索引擎服务器的过程可以是实时的,即每监控到用户浏览一个URL对应的网页时,就将此次用户浏览网页的相关信息上报给搜索引擎服务器,这样做可以实现搜索引擎服务器实时获取用户浏览网页的相关信息,保证了搜索引擎服务器得到用户浏览网页的相关信息的及时性。\n[0057] 另外也可以使用在浏览器端生成访问日志,并上传到搜索引擎服务器的方式将被浏览网页的相关信息上报给搜索引擎服务器。在用户对目标网页发起浏览时,在浏览器端生成包含用户浏览网页URL等相关信息的访问日志,或者对原有日志进行更新,即将当前用户的浏览行为的信息整合到原有日志中,例如当原有日志中不存在用户当前浏览的网页的URL时,将用户浏览的网页的URL追加到日志文件中。然后可以在一定的条件下,将这些用户浏览网页的相关信息以访问日志的形式上报给搜索引擎服务器,交由搜索引擎服务器进行处理。具体的,在一定的条件下,将访问日志的形式上报给搜索引擎服务器的过程中,可以是当浏览器端生成的访问日志达到一定的预置条件(例如记录的时间达到一定长度,或者日志文件达到一定存储容量等)时,将访问日志上报给搜索引擎服务器,比如,当访问日志达到或超过1兆字节时,将访问日志上报给搜索引擎服务器,或者以1周作为一个时间段,每一周将访问日志上报给服务器一次。这种在浏览器端生成访问日志上传到搜索引擎服务器的方式,将被浏览网页的相关信息上报给搜索引擎服务器的方法,通常有能够降低网络开销,减少用户计算机以及搜索引擎服务器系统压力的优点。\n[0058] S103:搜索引擎服务器根据从网络中各用户浏览器端收集到的所述被浏览网页的相关信息,更新搜索引擎网址库。\n[0059] 在已有的技术中,搜索引擎服务器依靠爬虫程序来抓取互联网上的网页并分析页面内的URL信息,进而获得新的页面URL,这种基于页面URL分析的方法,一般只适用于那些页面有外部链接指向而能够通过外部链接到达的页面,对于那些没有被外部链接指向到的“暗网”是无法抓取的,这是因为,“暗网”没有被外部链接指向到,爬虫程序也就无法利用传统的方法通过外部链接到达这些网页,进而获得“暗网”网页的信息内容。而现实的情况是,在现在的互联网上,“暗网”是有着相当数量的存在的,同时,这些“暗网”又蕴含了甚至数倍于搜索引擎已获取的丰富的信息资源,使得“暗网”成为了搜索引擎重要的潜在信息来源。这就给搜索引擎服务提出了一个问题:如果能够获得这些并没有被外部链接指向的“暗网”的信息资源,进而整合到现有的搜索引擎信息数据库和索引数据库中,就能够从很大程度上充实现有的信息数据库,从而使搜索引擎更好的满足互联网用户对于信息搜索的需要。\n[0060] 在本发明实施例提供的方法中,在搜索引擎获得网络中各用户浏览器端上报的用户浏览网页的相关信息后,搜索引擎服务器根据获得的用户浏览网页的信息更新搜索引擎网址库,这种方法可以通过利用网络中各用户浏览网页的信息,来更新搜索引擎网址库,能够在一定程度上发现没有被外部链接指向到的“暗网”,从而充实现有的搜索引擎网址库。\n这是因为,在互联网上存在的大量“暗网”,虽然是传统搜索引擎爬虫程序所不能抓取的,但是,一个网页从它发布时起,无论是针对何种用户群设计的网页,也无论是否被外部链接指向到,它一般总是会被或多或少的用户所浏览。基于这种思路,利用本发明实施例提供的方法,将网络中各用户浏览器端上报的用户浏览网页的相关信息上报给搜索引擎服务器后,搜索引擎服务器就可以获得用户浏览网页的相关信息,从中发现一定数量的没有被外部链接指向到的“暗网”。也就是说,在本发明中,在更新搜索引擎网址库时,并不是基于链接进行的,而是基于用户对网页的访问,只要被用户访问到的网页,就可以被收录到搜索引擎网址库中,而对于没有外部链接的网页而言,却是有可能被用户访问到的,因此,也能收录到搜索引擎网址库中,从而解决了没有外部链接的“暗网”无法被抓到的问题。\n[0061] 另一方面,在现代互联网高速发展的背景下,互联网上新出现的包含各种信息的网页,每天都在以惊人的速度增加。而搜索引擎爬虫程序的任务,可以归纳为两个主要方面:一个是不断发现网络上的URL,另一个就是下载URL所对应的页面进行分析。然而,在如今互联网上的网页数量极其庞大,而且增长速度又非常快的情况下,要想在短时间内对每一个抓取到的网页都进行下载分析,几乎是一个不可能完成的任务,这是因为,互联网上网页的数量极其庞大,搜索引擎的爬虫程序在互联网上抓取到的URL对应的页面也只是其中的一部分,然而即使是这部分页面,要想全部下载到搜索引擎服务器中,需要占用大量的资源,因此,在已有的技术方案中,通常采取一种由搜索引擎给网址库中的URL设置优先级,生成并维护URL下载队列,根据待下载页面URL的优先级高低来顺序下载网页的方法。\n[0062] 这种方法的出发点是在数量庞大的页面URL中进行优选,以便搜索引擎能够在无法及时下载全部的页面的情况下,优先下载那些可能更符合互联网用户兴趣页面,以达到更好的契合互联网用户的信息检索需求的目的。在已有的技术方案中,设置待下载页面URL优先级的依据,一般是根据对待下载页面所在的网站的统计数据,比如待下载页面所在的网站的访问量。在设定某个待下载页面URL的优先级时,主要参考待下载页面URL所在的网站的相关统计数据来设定。这种将网站的统计数据近似为作页面的重要程度的做法,使得在对待下载页面URL的优先级设定的依据不够全面,可能会导致搜索引擎不能及时下载和分析更加符合用户需求的网页内容,最终使用户没有能够通过搜索引擎得到需要的搜索结果。例如,某综合门户网站A开辟有“IT”频道,主要介绍IT业的相关产品及新闻,某网站B是一个的针对IT行业的专题网站,包含数码产品信息及行业新闻等内容。以现有的技术,可能会由于网站A的访问量要远大于网站B的访问量,搜索引擎将网站A中的页面的优先级设置为高于网站B内的页面的优先级。但实际的情况是,由于信息针对性强和更新及时等因素,网站B内的页面所包含的信息更符合用户的查询需求,用户可能更希望获得网站B的页面的信息,而在实际使用当中,网站B的某些页面的访问量可能要高于网站A的相关页面。但用户却可能因为搜索引擎没有能够及时下载收录网站B内的页面信息,而无法通过其获得需要的信息。此时,应用本发明实施例提供的方法,搜索引擎服务器根据从网络中各用户浏览器端收集到的所述被浏览网页的相关信息,确定搜索引擎网址库中网址的优先级,可以从页面级别确定搜索引擎网址库中URL的下载优先级,而不是以网站的统计数据近似的代替页面的重要程度,从而能够使搜索引擎网住库中URL的优先级更加合乎实际的页面访问情况,以便搜索引擎服务器根据网址库中URL优先级对搜索引擎网址库中的网址进行下载,进而更好的满足用户的信息查询需要。\n[0063] 搜索引擎服务器根据从网络中各用户浏览器端收集到的被浏览网页的相关信息,确定搜索引擎网址库中网址的优先级,可以根据统计到的被浏览网页的访问次数。访问次数是反映用户对信息查询需求的重要衡量参数,比如我们经常听到对于某事件的新闻报道中,某个页面的点击量超过了几百万。访问次数,往往反映了用户对某种信息的关注程度。\n在已有的技术中,由于衡量一个页面的重要程度的依据来源匮乏,往往只能根据页面所在网站的访问次数,来近似的代替页面的重要程度,而在本发明实施例中,依据根据从网络中各用户浏览器端收集到的被浏览网页的访问次数,客观上更加真实的反映了被浏览页面的受关注程度,而基于从网络中各用户浏览器端收集到的被浏览网页的访问次数来确定的搜索引擎网址库中URL的优先级,也使得搜索引擎能够更加客观、合理的组织搜索引擎网址库。\n[0064] 此外,应用本发明实施例中提供的方法,在用户的浏览器端可以收集到关于被浏览网页的多种信息,除了被浏览网页的访问次数,还包括被浏览网页的打开速度,用户在被浏览网页的停留时间,被浏览网页的来源URL等。这些信息也可以作为设置搜索引擎网址库中URL优先级的参考,这是因为,这些信息往往也可以反映被浏览网页的受关注程度,以及能被浏览网页的所在服务器的服务水平。\n[0065] 比如被浏览网页的打开速度,当用户对某一信息进行查询时,如果某一页面的打开速度非常慢,用户可能会选择其他的相关搜索结果以获得所需信息,而不会去等待页面的打开,因此搜索引擎服务器可以根据在用户的浏览器端收集到被浏览网页的打开速度的快慢,相应的提升或降低页面URL在搜索引擎网址库中优先级;又比如,对于用户停留时间非常短的页面,往往是用户在对某一信息进行查询时,打开的页面不能满足用户信息查询需求的而被用户关闭的网页,而能够满足用户的信息查询需求的页面,通常能够引发用户的浏览和阅读,这样用户在该页面的停留时间势必会相对较长,因此,搜索引擎服务器可以根据在用户的浏览器端收集到被浏览网页的用户停留时间按的长短,相应的提升或降低页面URL在搜索引擎网址库中优先级;再比如页面的来源URL,当前页面是通过点击来源URL页面中的链接打开的,如果来源URL在搜索引擎网址库中的优先级比较高,说明当前页面被用户浏览到的可能性更高,则有重要程度更高,因此搜索引擎服务器可以根据在用户的浏览器端收集到被浏览网页的来源URL,根据被浏览网页的来源URL在搜索引擎网址库中优先级的高低,来相应的提升或降低页面URL在搜索引擎网址库中优先级。\n[0066] 与本发明实施例提供的更新搜索引擎网址库的方法相对应,本发明实施例还提供了一种更新搜索引擎网址库的装置,参见图2,该装置包括:\n[0067] 监控单元201,用于在浏览器端对用户浏览网页的行为进行监控;\n[0068] 信息获取及上报单元202,用于当监控到用户浏览网页时,获取被浏览网页的相关信息,并将所述被浏览网页的相关信息上报给搜索引擎服务器;其中,所述被浏览网页的相关信息包括被浏览网页的唯一性标识信息;\n[0069] 更新单元203,用于搜索引擎服务器根据从网络中各用户浏览器端收集到的所述被浏览网页的相关信息,更新搜索引擎网址库。\n[0070] 为了使搜索引擎能够在无法及时下载全部的爬虫程序抓取的URL对应的页面的情况下,在数量庞大的页面URL中优先下载那些可能更符合互联网用户兴趣页面,以达到更好的契合互联网用户的信息检索需求的目的,本发明实施例还提供了优先级确定单元,用于搜索引擎服务器根据从网络中各用户浏览器端收集到的所述被浏览网页的相关信息,确定搜索引擎网址库中网址的优先级,以便搜索引擎服务器根据所述优先级对搜索引擎网址库中的网址进行下载;以及第一优先级确定子单元,用于搜索引擎服务器根据从网络中各用户浏览器端收集到的所述被浏览网页的相关信息,统计被浏览网页的访问次数,根据被浏览次数确定搜索引擎网址库中网址的优先级;第二优先级确定子单元,用于搜索引擎服务器根据从网络中各用户浏览器端收集到的所述被浏览网页的打开速度、停留时间和/或来源网页的唯一性标识信息,确定搜索引擎网址库中网址的优先级。\n[0071] 其中,浏览器端在上报被浏览网页的相关信息时,有多种方式,也即信息获取及上报单元可以包括:第一获取及上报子单元,用于监控到用户浏览网页时,获取被浏览网页的相关信息,并将所述被浏览网页的相关信息上报给搜索引擎服务器;或者,第二获取及上报子单元,用于监控到用户浏览网页时,获取被浏览网页的相关信息,并记录所述被浏览网页的相关信息,当所述记录的被浏览网页的相关信息达到预置条件时,上报给搜索引擎服务器。\n[0072] 综上所述,一个互联网搜索引擎是否能够比较快速、全面的发现新的页面,是评价一个互联网搜索引擎优劣的关键指标,同时也是决定整个搜索引擎信息服务水平高低的关键因素。通过本发明,能够比较快速和全面的发现并收集互联网上的网页网址,在一定程度上发现没有被外部链接指向到的网页URL,进而更新搜索引擎的网址库;并且,通过更加客观、合理的搜索引擎网址库URL优先级设置,使搜索引擎服务器根据网页URL的优先级对搜索引擎网址库中的网址进行下载分析,进而更好的满足了用户信息检索的需求。此外,应用本发明实施例提供的方法,不仅可以进行对已有的搜索引擎网址库进行更新,也可以通过本发明实施例提供的方法,从无到有的建立一个新的搜索引擎网址库。\n[0073] 需要说明的是,由于装置的实施例与方法的实施例是对应的,因此,装置实施例中未详述部分可以参见方法实施例中的介绍,这里不再赘述。\n[0074] 以上对本发明所提供的更新搜索引擎网址库的方法及装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
法律信息
- 2018-03-13
专利权人的姓名或者名称、地址的变更
专利权人由三六零科技股份有限公司变更为三六零科技有限公司
地址由300000 天津滨海高新区滨海科技园高新六路39号9-3-401号变更为300000 天津市滨海高新区滨海科技园高新六路39号9-3-401号
- 2017-05-10
专利权人的姓名或者名称、地址的变更
专利权人由天津奇思科技有限公司变更为三六零科技股份有限公司
地址由300384 天津新技术产业园区华苑产业区海泰西路18号北2-102工业孵化-5变更为300000 天津滨海高新区滨海科技园高新六路39号9-3-401号
- 2015-11-25
- 2015-01-07
专利申请权的转移
登记生效日: 2014.12.17
申请人由北京奇虎科技有限公司变更为天津奇思科技有限公司
地址由100088 北京市西城区新街口外大街28号D座112室(德胜园区)变更为300384 天津市新技术产业园区华苑产业区海泰西路18号北2-102工业孵化-5
申请人由奇智软件(北京)有限公司变更为空
- 2012-11-07
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201210089025.4
申请日: 2012.03.29
- 2012-11-07
专利申请权的转移
登记生效日: 2012.09.26
申请人由奇智软件(北京)有限公司变更为北京奇虎科技有限公司
地址由100016 北京市朝阳区酒仙桥路14号兆维大厦4层东侧单元变更为100088 北京市西城区新街口外大街28号D座112室(德胜园区)
申请人变更为奇智软件(北京)有限公司
- 2012-09-12
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2006-01-04
|
2004-06-30
| | |
2
| |
2012-03-14
|
2010-08-09
| | |
3
| |
2008-11-26
|
2008-05-15
| | |
4
| |
2012-02-08
|
2010-07-26
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |