一种环球信息网WWW页面处理方法和装置

发明专利有效专利

申请号：
CN201010586269.4
IPC分类号：G06F17/30
申请日期：
2010-12-03
申请人：
腾讯科技（深圳）有限公司

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	一种环球信息网WWW页面处理方法和装置
申请号	CN201010586269.4	申请日期	2010-12-03
法律状态	授权	申报国家	中国
公开/公告日	2012-06-06	公开/公告号	CN102486799A
优先权	暂无	优先权号	暂无
主分类号	G06F17/30 ? IPC结构图谱： G 物理 G0 仪器 G06 计算；推算；计数 G06F 电数字数据处理（基于特定计算模型的计算机系统入G06N） G06F17/00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法〔6〕 G06F17/30 信息检索；及其数据库结构〔6〕	IPC分类号	G;0;6;F;1;7;/;3;0查看分类表>
申请人	腾讯科技（深圳）有限公司	申请人地址	广东省深圳市福田区振兴路赛格科技园2栋东403室变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	腾讯科技（深圳）有限公司	当前权利人	腾讯科技（深圳）有限公司
发明人	阮曙东;徐羽;彭默
代理机构	北京德琦知识产权代理有限公司	代理人	谢安昆;宋志强

摘要

本发明公开了一种环球信息网(WWW)页面处理方法，包括：确定需要进行优化的网站；针对每个网络中各不同类型的WWW页面，分别为其生成对应的页面模板并进行保存；不断地从各网站中抓取WWW页面，将抓取到的每个WWW页面分别与其对应的页面模板进行匹配，根据匹配结果从中过滤掉多余的超文本标记语言(HTML)数据，并将过滤后的WWW页面进行保存；当接收到来自终端的WWW页面访问请求时，确定是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面，如果是，则将对应的过滤后的WWW页面返回给终端。本发明同时公开了一种WWW页面处理装置。应用本发明所述的方法和装置，能够提升用户体验。

1.一种环球信息网WWW页面处理方法，其特征在于，包括：
确定需要进行优化的网站；针对每个网络中各不同类型的WWW页面，分别为其生成对应的页面模板并进行保存；
不断地从各网站中抓取WWW页面，将抓取到的每个WWW页面分别与其对应的页面模板进行匹配，根据匹配结果从中过滤掉多余的超文本标记语言HTML数据，并将过滤后的WWW页面进行保存；
当接收到来自终端的WWW页面访问请求时，确定是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面，如果是，则将对应的过滤后的WWW页面返回给终端；
其中，所述针对每个网络中各不同类型的WWW页面，分别为其生成对应的页面模板并进行保存包括：
针对每个网站X，分别进行以下处理：
根据接收到的后台管理员指令，从网站X中分别获取不同类型的WWW页面各一个；
将获取到的每个WWW页面分别分析构造成文档对象模型DOM树，并根据接收到的后台管理员指令，删除每个DOM树中不需要保留的DOM节点；
将每个经过删除处理后的DOM树分别转换为WWW页面，作为页面模板进行保存；
所述将抓取到的每个WWW页面分别与其对应的页面模板进行匹配，根据匹配结果从中过滤掉多余的HTML数据包括：
针对抓取到的每个WWW页面Y，分别进行以下处理：
将WWW页面Y分析构造成DOM树，得到DOM树1，将WWW页面Y对应的页面模板Y分析构造成DOM树，得到DOM树2；
针对DOM树1中的每个DOM节点，分别确定其在DOM树2中是否存在相匹配的DOM节点，如果是，则不作处理，否则，将该DOM节点从DOM树1中删除；
将经过删除处理后的DOM树1转换为WWW页面，将DOM树2转换为页面模板Y。
2.根据权利要求1所述的方法，其特征在于，该方法进一步包括：
如果未保存有终端请求访问的WWW页面对应的过滤后的WWW页面，则执行WWW页面的实时转换流程。
3.根据权利要求1或2所述的方法，其特征在于，该方法进一步包括：保存每个页面模板的统一资源定位符URL；
所述将抓取到的每个WWW页面分别与其对应的页面模板进行匹配之前，进一步包括：
根据抓取到的每个WWW页面的URL确定其对应的页面模板。
4.根据权利要求1或2所述的方法，其特征在于，所述终端为手机终端。
5.一种环球信息网WWW页面处理装置，其特征在于，包括：
第一处理单元，用于确定需要进行优化的网站；针对每个网络中各不同类型的WWW页面，分别为其生成对应的页面模板并进行保存；不断地从各网站中抓取WWW页面，将抓取到的每个WWW页面分别与其对应的页面模板进行匹配，根据匹配结果从中过滤掉多余的超文本标记语言HTML数据，并将过滤后的WWW页面进行保存；
第二处理单元，用于当接收到来自终端的WWW页面访问请求时，确定所述第一处理单元中是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面，如果是，则从所述第一处理单元中获取对应的过滤后的WWW页面，并返回给终端；
其中，所述第一处理单元包括：
第一处理子单元，用于接收后台管理员输入的需要进行优化的网站；
第二处理子单元，用于针对每个网络中各不同类型的WWW页面，分别为其生成对应的页面模板并进行保存，包括：针对每个网站X，分别进行以下处理：根据接收到的后台管理员指令，从网站X中分别获取不同类型的WWW页面各一个；将获取到的每个WWW页面分别分析构造成文档对象模型DOM树，并根据接收到的后台管理员指令，删除每个DOM树中不需要保留的DOM节点；将每个经过删除处理后的DOM树分别转换为WWW页面，作为页面模板进行保存；
第三处理子单元，用于不断地从各网站中抓取WWW页面，将抓取到的每个WWW页面分别与其对应的页面模板进行匹配，根据匹配结果从中过滤掉多余的HTML数据，并将过滤后的WWW页面进行保存，包括：针对抓取到的每个WWW页面Y，分别进行以下处理：将WWW页面Y分析构造成DOM树，得到DOM树1，将WWW页面Y对应的页面模板Y分析构造成DOM树，得到DOM树2；针对DOM树1中的每个DOM节点，分别确定其在DOM树2中是否存在相匹配的DOM节点，如果是，则不作处理，否则，将该DOM节点从DOM树1中删除；将经过删除处理后的DOM树1转换为WWW页面，将DOM树2转换为页面模板Y。
6.根据权利要求5所述的装置，其特征在于，所述第二处理单元进一步用于，如果所述第一处理单元中未保存有终端请求访问的WWW页面对应的过滤后的WWW页面，则执行WWW页面的实时转换流程。
7.根据权利要求5或6所述的装置，其特征在于，所述终端为手机终端。

一种环球信息网WWW页面处理方法和装置\n技术领域\n[0001] 本发明涉及互联网技术，特别涉及一种环球信息网(WWW，World Wide Web)页面处理方法和装置。\n背景技术\n[0002] 随着宽带互联网的普及，互联网上的WWW页面显示的内容越来越丰富，但同时，多余的信息，如广告信息等也越来越多。当用户在有限大小的终端，如手机终端上浏览WWW页面时，这些多余的信息会给用户的浏览带来很大的不便，从而降低用户体验。\n发明内容\n[0003] 有鉴于此，本发明的主要目的在于提供一种WWW页面处理方法，能够提升用户体验。\n[0004] 本发明的另一目的在于提供一种WWW页面处理装置，能够提升用户体验。\n[0005] 为达到上述目的，本发明的技术方案是这样实现的：\n[0006] 一种WWW页面处理方法，包括：\n[0007] 确定需要进行优化的网站；针对每个网络中各不同类型的WWW页面，分别为其生成对应的页面模板并进行保存；\n[0008] 不断地从各网站中抓取WWW页面，将抓取到的每个WWW页面分别与其对应的页面模板进行匹配，根据匹配结果从中过滤掉多余的超文本标记语言HTML数据，并将过滤后的WWW页面进行保存；\n[0009] 当接收到来自终端的WWW页面访问请求时，确定是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面，如果是，则将对应的过滤后的WWW页面返回给终端。\n[0010] 一种WWW页面处理装置，包括：\n[0011] 第一处理单元，用于确定需要进行优化的网站；针对每个网络中各不同类型的WWW页面，分别为其生成对应的页面模板并进行保存；不断地从各网站中抓取WWW页面，将抓取到的每个WWW页面分别与其对应的页面模板进行匹配，根据匹配结果从中过滤掉多余的超文本标记语言HTML数据，并将过滤后的WWW页面进行保存；\n[0012] 第二处理单元，用于当接收到来自终端的WWW页面访问请求时，确定所述第一处理单元中是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面，如果是，则从所述第一处理单元中获取对应的过滤后的WWW页面，并返回给终端。\n[0013] 可见，采用本发明的技术方案，根据页面模板从抓取到的WWW页面中过滤掉多余的HTML数据，即广告信息等，从而方便了用户浏览，提升了用户体验；而且，本发明所述方案实现起来简单方便，便于普及。\n附图说明\n[0014] 图1为本发明方法实施例的流程图。\n[0015] 图2为本发明装置实施例的组成结构示意图。\n具体实施方式\n[0016] 针对现有技术中存在的问题，本发明中提出一种全新的WWW页面处理方案，能够提升用户体验。\n[0017] 为使本发明的技术方案更加清楚、明白，以下参照附图并举实施例，对本发明所述方案作进一步地详细说明。\n[0018] 图1为本发明方法实施例的流程图。如图1所示，包括以下步骤：\n[0019] 步骤11：确定需要进行优化的网站。\n[0020] 在实际应用中，可由后台管理员来确定哪些网站需要进行优化(即按照后续方式对WWW页面进行过滤等)，并利用确定出的网站组成一个网站链接列表，输入给后台处理系统。\n[0021] 理论上来说，网站链接列表中所包含的网站数越多越好，但是考虑到维护成本等因素，可只包含一些比较常用的网站。\n[0022] 步骤12：针对每个网络中各不同类型的WWW页面，分别为其生成对应的页面模板并进行保存。\n[0023] 本步骤中，针对网站链接列表中的每个网站X，分别进行以下处理：根据接收到的后台管理员指令，从网站X中分别获取不同类型的WWW页面各一个；将获取到的每个WWW页面分别分析构造成文档对象模型(DOM，Document Object Model)树，并根据接收到的后台管理员指令，删除每个DOM树中不需要保留的DOM节点；将每个经过删除处理后的DOM树分别转换为WWW页面，并作为页面模板进行保存。如何分析构造DOM树以及如何将DOM树转换为WWW页面均为现有技术。\n[0024] 在实际应用中，可开发一个相关插件安装在后台处理系统的浏览器，如火狐(FireFox)浏览器上；后续，后台管理员可在安装了插件的FireFox浏览器上访问不同网站的不同类型的WWW页面，具体来说，针对每个网站X中不同类型，如新闻类和BBS类的WWW页面，可分别从中随机选择一个WWW页面进行访问，并通过鼠标选择所访问的WWW页面中需要保留和需要删除的内容。所述插件即用于根据后台管理员的操作，相应地完成分析构造DOM树、删除DOM节点、将DOM树转换为WWW页面等功能。\n[0025] 按照步骤12所示方式进行处理后，即可得到一系列的页面模板。举例说明，假设网站链接列表中共包含3个网站(此处仅为举例说明，实际会远大于3)，其中，第1个网站中共包含5种不同类型的WWW页面，第2个网站中共包含6种不同类型的WWW页面，第3个网站中共包含4种不同类型的WWW页面，那么总共可得到5+6+4＝15个页面模板。\n[0026] 步骤13：不断地从各网站中抓取WWW页面，将抓取到的每个WWW页面分别与其对应的页面模板进行匹配，根据匹配结果从中过滤掉多余的超文本标记语言(HTML，Hyper Text Mark-up Language)数据，并将过滤后的WWW页面进行保存。\n[0027] 后台处理系统可不断地从网站链接列表中的各网站中抓取WWW页面，所述抓取为实时抓取或为每隔一段时间进行一次抓取，抓取的对象包括各网站中的所有WWW网页。\n[0028] 针对抓取到的每个WWW页面Y，可分别进行以下处理：将WWW页面Y分析构造成DOM树，得到DOM树1，将WWW页面Y对应的页面模板Y分析构造成DOM树，得到DOM树2；针对DOM树1中的每个DOM节点，分别确定其在DOM树2中是否存在相匹配的DOM节点，如果是，则不作处理，否则，将该DOM节点从DOM树1中删除；将经过删除处理后的DOM树1转换为WWW页面，将DOM树2转换为页面模板Y。如何确定DOM节点是否匹配为现有技术。通过这种方式，即可过滤掉WWW页面中多余的HTML数据，如广告信息等。\n[0029] 上述与WWW页面Y对应的页面模板Y，即指和WWW页面Y属于同一网站，且属于同一类型的页面模板。在实际应用中，在保存每个页面模板时，可同时保存每个页面模板的统一资源定位符(URL，Uniform Resource Location)，URL能够体现所属网站以及所属类型等信息，这样，在将抓取到的每个WWW页面分别与其对应的页面模板进行匹配之前，可先根据抓取到的每个WWW页面的URL确定其对应的页面模板。\n[0030] 步骤14：当接收到来自终端的WWW页面访问请求时，确定是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面，如果是，则将对应的过滤后的WWW页面返回给终端。\n[0031] 本步骤中，当后台处理系统接收到来自终端的WWW页面访问请求时，首先确定自身是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面，即确定终端请求访问的WWW页面是否已经抓取并进行了优化，如果是，则将对应的过滤后的WWW页面返回给终端，否则，按照现有方式，执行WWW页面的实时转换流程。\n[0032] 至此，即完成了关于本发明方法实施例的介绍。\n[0033] 基于上述介绍，图2为本发明装置实施例的组成结构示意图。如图2所示，包括：\n[0034] 第一处理单元21，用于确定需要进行优化的网站；针对每个网络中各不同类型的WWW页面，分别为其生成对应的页面模板并进行保存；不断地从各网站中抓取WWW页面，将抓取到的每个WWW页面分别与其对应的页面模板进行匹配，根据匹配结果从中过滤掉多余的HTML数据，并将过滤后的WWW页面进行保存；\n[0035] 第二处理单元22，用于当接收到来自终端的WWW页面访问请求时，确定第一处理单元21中是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面，如果是，则从第一处理单元21中获取对应的过滤后的WWW页面，并返回给终端。\n[0036] 第二处理单元22还可进一步用于，如果第一处理单元21中未保存有终端请求访问的WWW页面对应的过滤后的WWW页面，则执行WWW页面的实时转换流程。\n[0037] 另外，第一处理单元21中还可具体包括(为简化附图，未图示)：\n[0038] 第一处理子单元，用于接收后台管理员输入的需要进行优化的网站；\n[0039] 第二处理子单元，用于针对每个网络中各不同类型的WWW页面，分别为其生成对应的页面模板并进行保存，包括：针对每个网站X，分别进行以下处理：根据接收到的后台管理员指令，从网站X中分别获取不同类型的WWW页面各一个；将获取到的每个WWW页面分别分析构造成DOM树，并根据接收到的后台管理员指令，删除每个DOM树中不需要保留的DOM节点；将每个经过删除处理后的DOM树分别转换为WWW页面，作为页面模板进行保存；\n[0040] 第三处理子单元，用于不断地从各网站中抓取WWW页面，将抓取到的每个WWW页面分别与其对应的页面模板进行匹配，根据匹配结果从中过滤掉多余的HTML数据，并将过滤后的WWW页面进行保存，包括：针对抓取到的每个WWW页面Y，分别进行以下处理：将WWW页面Y分析构造成DOM树，得到DOM树1，将WWW页面Y对应的页面模板Y分析构造成DOM树，得到DOM树2；针对DOM树1中的每个DOM节点，分别确定其在DOM树2中是否存在相匹配的DOM节点，如果是，则不作处理，否则，将该DOM节点从DOM树1中删除；将经过删除处理后的DOM树1转换为WWW页面，将DOM树2转换为页面模板Y。\n[0041] 图2所示装置实施例的具体工作流程请参照图1所示方法实施例中的相应说明，此处不再赘述。另外，图1和2所示实施例中的终端通常为手机终端。\n[0042] 总之，采用本发明的技术方案，能够提升用户体验。\n[0043] 以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有引用任何外部专利数据！

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供