著录项信息
专利名称 | 一种环球信息网WWW页面处理方法和装置 |
申请号 | CN201010586269.4 | 申请日期 | 2010-12-03 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2012-06-06 | 公开/公告号 | CN102486799A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 腾讯科技(深圳)有限公司 | 申请人地址 | 广东省深圳市福田区振兴路赛格科技园2栋东403室
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 腾讯科技(深圳)有限公司 | 当前权利人 | 腾讯科技(深圳)有限公司 |
发明人 | 阮曙东;徐羽;彭默 |
代理机构 | 北京德琦知识产权代理有限公司 | 代理人 | 谢安昆;宋志强 |
摘要
本发明公开了一种环球信息网(WWW)页面处理方法,包括:确定需要进行优化的网站;针对每个网络中各不同类型的WWW页面,分别为其生成对应的页面模板并进行保存;不断地从各网站中抓取WWW页面,将抓取到的每个WWW页面分别与其对应的页面模板进行匹配,根据匹配结果从中过滤掉多余的超文本标记语言(HTML)数据,并将过滤后的WWW页面进行保存;当接收到来自终端的WWW页面访问请求时,确定是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面,如果是,则将对应的过滤后的WWW页面返回给终端。本发明同时公开了一种WWW页面处理装置。应用本发明所述的方法和装置,能够提升用户体验。
1.一种环球信息网WWW页面处理方法,其特征在于,包括:
确定需要进行优化的网站;针对每个网络中各不同类型的WWW页面,分别为其生成对应的页面模板并进行保存;
不断地从各网站中抓取WWW页面,将抓取到的每个WWW页面分别与其对应的页面模板进行匹配,根据匹配结果从中过滤掉多余的超文本标记语言HTML数据,并将过滤后的WWW页面进行保存;
当接收到来自终端的WWW页面访问请求时,确定是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面,如果是,则将对应的过滤后的WWW页面返回给终端;
其中,所述针对每个网络中各不同类型的WWW页面,分别为其生成对应的页面模板并进行保存包括:
针对每个网站X,分别进行以下处理:
根据接收到的后台管理员指令,从网站X中分别获取不同类型的WWW页面各一个;
将获取到的每个WWW页面分别分析构造成文档对象模型DOM树,并根据接收到的后台管理员指令,删除每个DOM树中不需要保留的DOM节点;
将每个经过删除处理后的DOM树分别转换为WWW页面,作为页面模板进行保存;
所述将抓取到的每个WWW页面分别与其对应的页面模板进行匹配,根据匹配结果从中过滤掉多余的HTML数据包括:
针对抓取到的每个WWW页面Y,分别进行以下处理:
将WWW页面Y分析构造成DOM树,得到DOM树1,将WWW页面Y对应的页面模板Y分析构造成DOM树,得到DOM树2;
针对DOM树1中的每个DOM节点,分别确定其在DOM树2中是否存在相匹配的DOM节点,如果是,则不作处理,否则,将该DOM节点从DOM树1中删除;
将经过删除处理后的DOM树1转换为WWW页面,将DOM树2转换为页面模板Y。
2.根据权利要求1所述的方法,其特征在于,该方法进一步包括:
如果未保存有终端请求访问的WWW页面对应的过滤后的WWW页面,则执行WWW页面的实时转换流程。
3.根据权利要求1或2所述的方法,其特征在于,该方法进一步包括:保存每个页面模板的统一资源定位符URL;
所述将抓取到的每个WWW页面分别与其对应的页面模板进行匹配之前,进一步包括:
根据抓取到的每个WWW页面的URL确定其对应的页面模板。
4.根据权利要求1或2所述的方法,其特征在于,所述终端为手机终端。
5.一种环球信息网WWW页面处理装置,其特征在于,包括:
第一处理单元,用于确定需要进行优化的网站;针对每个网络中各不同类型的WWW页面,分别为其生成对应的页面模板并进行保存;不断地从各网站中抓取WWW页面,将抓取到的每个WWW页面分别与其对应的页面模板进行匹配,根据匹配结果从中过滤掉多余的超文本标记语言HTML数据,并将过滤后的WWW页面进行保存;
第二处理单元,用于当接收到来自终端的WWW页面访问请求时,确定所述第一处理单元中是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面,如果是,则从所述第一处理单元中获取对应的过滤后的WWW页面,并返回给终端;
其中,所述第一处理单元包括:
第一处理子单元,用于接收后台管理员输入的需要进行优化的网站;
第二处理子单元,用于针对每个网络中各不同类型的WWW页面,分别为其生成对应的页面模板并进行保存,包括:针对每个网站X,分别进行以下处理:根据接收到的后台管理员指令,从网站X中分别获取不同类型的WWW页面各一个;将获取到的每个WWW页面分别分析构造成文档对象模型DOM树,并根据接收到的后台管理员指令,删除每个DOM树中不需要保留的DOM节点;将每个经过删除处理后的DOM树分别转换为WWW页面,作为页面模板进行保存;
第三处理子单元,用于不断地从各网站中抓取WWW页面,将抓取到的每个WWW页面分别与其对应的页面模板进行匹配,根据匹配结果从中过滤掉多余的HTML数据,并将过滤后的WWW页面进行保存,包括:针对抓取到的每个WWW页面Y,分别进行以下处理:将WWW页面Y分析构造成DOM树,得到DOM树1,将WWW页面Y对应的页面模板Y分析构造成DOM树,得到DOM树2;针对DOM树1中的每个DOM节点,分别确定其在DOM树2中是否存在相匹配的DOM节点,如果是,则不作处理,否则,将该DOM节点从DOM树1中删除;将经过删除处理后的DOM树1转换为WWW页面,将DOM树2转换为页面模板Y。
6.根据权利要求5所述的装置,其特征在于,所述第二处理单元进一步用于,如果所述第一处理单元中未保存有终端请求访问的WWW页面对应的过滤后的WWW页面,则执行WWW页面的实时转换流程。
7.根据权利要求5或6所述的装置,其特征在于,所述终端为手机终端。
一种环球信息网WWW页面处理方法和装置\n技术领域\n[0001] 本发明涉及互联网技术,特别涉及一种环球信息网(WWW,World Wide Web)页面处理方法和装置。\n背景技术\n[0002] 随着宽带互联网的普及,互联网上的WWW页面显示的内容越来越丰富,但同时,多余的信息,如广告信息等也越来越多。当用户在有限大小的终端,如手机终端上浏览WWW页面时,这些多余的信息会给用户的浏览带来很大的不便,从而降低用户体验。\n发明内容\n[0003] 有鉴于此,本发明的主要目的在于提供一种WWW页面处理方法,能够提升用户体验。\n[0004] 本发明的另一目的在于提供一种WWW页面处理装置,能够提升用户体验。\n[0005] 为达到上述目的,本发明的技术方案是这样实现的:\n[0006] 一种WWW页面处理方法,包括:\n[0007] 确定需要进行优化的网站;针对每个网络中各不同类型的WWW页面,分别为其生成对应的页面模板并进行保存;\n[0008] 不断地从各网站中抓取WWW页面,将抓取到的每个WWW页面分别与其对应的页面模板进行匹配,根据匹配结果从中过滤掉多余的超文本标记语言HTML数据,并将过滤后的WWW页面进行保存;\n[0009] 当接收到来自终端的WWW页面访问请求时,确定是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面,如果是,则将对应的过滤后的WWW页面返回给终端。\n[0010] 一种WWW页面处理装置,包括:\n[0011] 第一处理单元,用于确定需要进行优化的网站;针对每个网络中各不同类型的WWW页面,分别为其生成对应的页面模板并进行保存;不断地从各网站中抓取WWW页面,将抓取到的每个WWW页面分别与其对应的页面模板进行匹配,根据匹配结果从中过滤掉多余的超文本标记语言HTML数据,并将过滤后的WWW页面进行保存;\n[0012] 第二处理单元,用于当接收到来自终端的WWW页面访问请求时,确定所述第一处理单元中是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面,如果是,则从所述第一处理单元中获取对应的过滤后的WWW页面,并返回给终端。\n[0013] 可见,采用本发明的技术方案,根据页面模板从抓取到的WWW页面中过滤掉多余的HTML数据,即广告信息等,从而方便了用户浏览,提升了用户体验;而且,本发明所述方案实现起来简单方便,便于普及。\n附图说明\n[0014] 图1为本发明方法实施例的流程图。\n[0015] 图2为本发明装置实施例的组成结构示意图。\n具体实施方式\n[0016] 针对现有技术中存在的问题,本发明中提出一种全新的WWW页面处理方案,能够提升用户体验。\n[0017] 为使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案作进一步地详细说明。\n[0018] 图1为本发明方法实施例的流程图。如图1所示,包括以下步骤:\n[0019] 步骤11:确定需要进行优化的网站。\n[0020] 在实际应用中,可由后台管理员来确定哪些网站需要进行优化(即按照后续方式对WWW页面进行过滤等),并利用确定出的网站组成一个网站链接列表,输入给后台处理系统。\n[0021] 理论上来说,网站链接列表中所包含的网站数越多越好,但是考虑到维护成本等因素,可只包含一些比较常用的网站。\n[0022] 步骤12:针对每个网络中各不同类型的WWW页面,分别为其生成对应的页面模板并进行保存。\n[0023] 本步骤中,针对网站链接列表中的每个网站X,分别进行以下处理:根据接收到的后台管理员指令,从网站X中分别获取不同类型的WWW页面各一个;将获取到的每个WWW页面分别分析构造成文档对象模型(DOM,Document Object Model)树,并根据接收到的后台管理员指令,删除每个DOM树中不需要保留的DOM节点;将每个经过删除处理后的DOM树分别转换为WWW页面,并作为页面模板进行保存。如何分析构造DOM树以及如何将DOM树转换为WWW页面均为现有技术。\n[0024] 在实际应用中,可开发一个相关插件安装在后台处理系统的浏览器,如火狐(FireFox)浏览器上;后续,后台管理员可在安装了插件的FireFox浏览器上访问不同网站的不同类型的WWW页面,具体来说,针对每个网站X中不同类型,如新闻类和BBS类的WWW页面,可分别从中随机选择一个WWW页面进行访问,并通过鼠标选择所访问的WWW页面中需要保留和需要删除的内容。所述插件即用于根据后台管理员的操作,相应地完成分析构造DOM树、删除DOM节点、将DOM树转换为WWW页面等功能。\n[0025] 按照步骤12所示方式进行处理后,即可得到一系列的页面模板。举例说明,假设网站链接列表中共包含3个网站(此处仅为举例说明,实际会远大于3),其中,第1个网站中共包含5种不同类型的WWW页面,第2个网站中共包含6种不同类型的WWW页面,第3个网站中共包含4种不同类型的WWW页面,那么总共可得到5+6+4=15个页面模板。\n[0026] 步骤13:不断地从各网站中抓取WWW页面,将抓取到的每个WWW页面分别与其对应的页面模板进行匹配,根据匹配结果从中过滤掉多余的超文本标记语言(HTML,Hyper Text Mark-up Language)数据,并将过滤后的WWW页面进行保存。\n[0027] 后台处理系统可不断地从网站链接列表中的各网站中抓取WWW页面,所述抓取为实时抓取或为每隔一段时间进行一次抓取,抓取的对象包括各网站中的所有WWW网页。\n[0028] 针对抓取到的每个WWW页面Y,可分别进行以下处理:将WWW页面Y分析构造成DOM树,得到DOM树1,将WWW页面Y对应的页面模板Y分析构造成DOM树,得到DOM树2;针对DOM树1中的每个DOM节点,分别确定其在DOM树2中是否存在相匹配的DOM节点,如果是,则不作处理,否则,将该DOM节点从DOM树1中删除;将经过删除处理后的DOM树1转换为WWW页面,将DOM树2转换为页面模板Y。如何确定DOM节点是否匹配为现有技术。通过这种方式,即可过滤掉WWW页面中多余的HTML数据,如广告信息等。\n[0029] 上述与WWW页面Y对应的页面模板Y,即指和WWW页面Y属于同一网站,且属于同一类型的页面模板。在实际应用中,在保存每个页面模板时,可同时保存每个页面模板的统一资源定位符(URL,Uniform Resource Location),URL能够体现所属网站以及所属类型等信息,这样,在将抓取到的每个WWW页面分别与其对应的页面模板进行匹配之前,可先根据抓取到的每个WWW页面的URL确定其对应的页面模板。\n[0030] 步骤14:当接收到来自终端的WWW页面访问请求时,确定是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面,如果是,则将对应的过滤后的WWW页面返回给终端。\n[0031] 本步骤中,当后台处理系统接收到来自终端的WWW页面访问请求时,首先确定自身是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面,即确定终端请求访问的WWW页面是否已经抓取并进行了优化,如果是,则将对应的过滤后的WWW页面返回给终端,否则,按照现有方式,执行WWW页面的实时转换流程。\n[0032] 至此,即完成了关于本发明方法实施例的介绍。\n[0033] 基于上述介绍,图2为本发明装置实施例的组成结构示意图。如图2所示,包括:\n[0034] 第一处理单元21,用于确定需要进行优化的网站;针对每个网络中各不同类型的WWW页面,分别为其生成对应的页面模板并进行保存;不断地从各网站中抓取WWW页面,将抓取到的每个WWW页面分别与其对应的页面模板进行匹配,根据匹配结果从中过滤掉多余的HTML数据,并将过滤后的WWW页面进行保存;\n[0035] 第二处理单元22,用于当接收到来自终端的WWW页面访问请求时,确定第一处理单元21中是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面,如果是,则从第一处理单元21中获取对应的过滤后的WWW页面,并返回给终端。\n[0036] 第二处理单元22还可进一步用于,如果第一处理单元21中未保存有终端请求访问的WWW页面对应的过滤后的WWW页面,则执行WWW页面的实时转换流程。\n[0037] 另外,第一处理单元21中还可具体包括(为简化附图,未图示):\n[0038] 第一处理子单元,用于接收后台管理员输入的需要进行优化的网站;\n[0039] 第二处理子单元,用于针对每个网络中各不同类型的WWW页面,分别为其生成对应的页面模板并进行保存,包括:针对每个网站X,分别进行以下处理:根据接收到的后台管理员指令,从网站X中分别获取不同类型的WWW页面各一个;将获取到的每个WWW页面分别分析构造成DOM树,并根据接收到的后台管理员指令,删除每个DOM树中不需要保留的DOM节点;将每个经过删除处理后的DOM树分别转换为WWW页面,作为页面模板进行保存;\n[0040] 第三处理子单元,用于不断地从各网站中抓取WWW页面,将抓取到的每个WWW页面分别与其对应的页面模板进行匹配,根据匹配结果从中过滤掉多余的HTML数据,并将过滤后的WWW页面进行保存,包括:针对抓取到的每个WWW页面Y,分别进行以下处理:将WWW页面Y分析构造成DOM树,得到DOM树1,将WWW页面Y对应的页面模板Y分析构造成DOM树,得到DOM树2;针对DOM树1中的每个DOM节点,分别确定其在DOM树2中是否存在相匹配的DOM节点,如果是,则不作处理,否则,将该DOM节点从DOM树1中删除;将经过删除处理后的DOM树1转换为WWW页面,将DOM树2转换为页面模板Y。\n[0041] 图2所示装置实施例的具体工作流程请参照图1所示方法实施例中的相应说明,此处不再赘述。另外,图1和2所示实施例中的终端通常为手机终端。\n[0042] 总之,采用本发明的技术方案,能够提升用户体验。\n[0043] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
法律信息
- 2022-12-02
专利权的转移
登记生效日: 2022.11.18
专利权人由腾讯科技(深圳)有限公司变更为深圳市雅阅科技有限公司
地址由518044 广东省深圳市福田区振兴路赛格科技园2栋东403室变更为518133 广东省深圳市宝安区新安街道海滨社区宝兴路6号海纳百川总部大厦A座14层1402
- 2014-10-15
- 2012-07-25
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201010586269.4
申请日: 2010.12.03
- 2012-06-06
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |