恶意网页的识别方法以及识别装置

发明专利无效专利

申请号：
CN201110345080.0
IPC分类号：G06F17/30
申请日期：
2011-11-04
申请人：
成都市华为赛门铁克科技有限公司

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	恶意网页的识别方法以及识别装置
申请号	CN201110345080.0	申请日期	2011-11-04
法律状态	权利终止	申报国家	中国
公开/公告日	2012-02-01	公开/公告号	CN102339320A
优先权	暂无	优先权号	暂无
主分类号	G06F17/30 ? IPC结构图谱： G 物理 G0 仪器 G06 计算；推算；计数 G06F 电数字数据处理（基于特定计算模型的计算机系统入G06N） G06F17/00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法〔6〕 G06F17/30 信息检索；及其数据库结构〔6〕	IPC分类号	G;0;6;F;1;7;/;3;0查看分类表>
申请人	成都市华为赛门铁克科技有限公司	申请人地址	四川省成都市高新区西部园区清水河片区天辰路88号电子科技大学高新科技园5号楼D区变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	华为数字技术（成都）有限公司	当前权利人	华为数字技术（成都）有限公司
发明人	蒋柏梁;付凯;陈超;李亚文
代理机构	暂无	代理人	暂无

摘要

本发明公开了一种恶意网页的识别方法以及识别装置，用以解决在同一网站提供的网页中，既有正常网页又有恶意网页的情况下，现有技术无法在过滤掉恶意网页的同时，允许用户访问正常网页的问题。该方法包括：将待访问网页统一资源定位符URL与恶意关键词表中的关键字进行匹配，记录匹配结果；从匹配结果中选择基准关键字，所述基准关键字的顺序号标识该关键字为所属关键词中的第一个关键字；对于每个选择出的基准关键字，执行：获得匹配结果中以所述基准关键字为起点的一组关键字；判断该组关键字的数目，与该基准关键字所属关键词所包含的关键字的数目是否一致；若数目一致，则确认所述待访问网页URL中包含该基准关键字所属关键词，为恶意网页。

1.一种恶意网页的识别方法，其特征在于，包括：
将待访问网页统一资源定位符URL与恶意关键词表中的关键字进行匹配，记录匹配结果，所述恶意关键词表中顺序存储有每个关键词包含的至少两个关键字、各关键字在所属关键词中的顺序号；所述匹配结果中包含匹配到的关键字、以及关键字的顺序号；
从匹配结果中选择基准关键字，所述基准关键字的顺序号标识该关键字为所属关键词中的第一个关键字；
若基准关键字的数目为至少一个，则对于每个选择出的基准关键字，执行以下步骤：
获得匹配结果中以所述基准关键字为起点的一组关键字，该组关键字中每个关键字的顺序号与前一个关键字的顺序号连续、且存储位置相邻；
判断该组关键字的数目，与该基准关键字所属关键词所包含的关键字的数目是否一致；若数目一致，则确认所述待访问网页URL中包含该基准关键字所属关键词，为恶意网页。
2.如权利要求1所述的方法，其特征在于，所述将待访问网页URL与恶意关键词表中的关键字进行匹配，记录匹配结果，包括：
根据恶意关键词表中的关键字构建Aho-Corasick AC状态机的所有可能状态，其中初始状态为恶意关键词表中的第一个关键字，其他可能状态包括：第一个关键字与恶意关键词表中在所述第一个关键字之后至少一个顺序排列的其他关键字的组合结果；
获得待访问URL中第一个与AC状态机的初始状态相同的词语；
在AC状态机中，依次输入待访问URL中在与AC状态机的初始状态相同的词语之后的各个词语，当AC状态机发生最后一次转向时，则记录当前状态对应的关键字组合中的各个关键字、及各关键字的存储序号；
按照存储序号，对当前状态对应的关键字组合中的各个关键字进行排序，通过查找恶意关键词表中各关键字的存储序号与顺序号的对应关系，获得排序后的各关键字、及各关键字的顺序号作为匹配结果。
3.如权利要求1或2所述的方法，其特征在于，所述确认所述待访问网页URL中包含该基准关键字所属关键词后，还包括：
记录所述该基准关键字所属关键词，从而获得所述待访问网页URL包含的所有关键词；
从所述待访问网页URL包含的所有关键词中，选择所包含关键字数目最多的关键词作为与所述待访问网页URL最匹配的关键词。
4.如权利要求3所述的方法，其特征在于，所述选择所包含关键字数目最多的关键词作为与所述待访问网页URL最匹配的关键词，包括：
若所包含关键字数目最多的关键词的数目为一个，则将该关键词作为与所述待访问网页URL最匹配的关键词；
若所包含关键字数目最多的关键词的数目为至少一个，则按照距离所述待访问网页URL的起始位置由近至远的顺序，选择一个关键词作为与所述待访问网页URL最匹配的关键词。
5.如权利要求1所述的方法，其特征在于，若基准关键字的数目为0，则确认所述待访问网页URL中未包含恶意关键词表中的关键词，为正常网页URL。
6.一种恶意网页的识别装置，其特征在于，包括：
匹配单元，用于将待访问网页URL与恶意关键词表中的关键字进行匹配，记录匹配结果，所述恶意关键词表中顺序存储有每个关键词包含的至少两个关键字、各关键字在所属关键词中的顺序号；所述匹配结果中包含匹配到的关键字、以及关键字的顺序号；
选择单元，用于从匹配结果中选择基准关键字，所述基准关键字的顺序号标识该关键字为所属关键词中的第一个关键字；
获取单元，用于若选择单元选择出的基准关键字的数目为至少一个，则对于每个选择出的基准关键字，获得匹配结果中以所述基准关键字为起点的一组关键字，该组关键字中每个关键字的顺序号与前一个关键字的顺序号连续；
判断单元，用于判断该组关键字的数目，与该基准关键字所属关键词所包含的关键字的数目是否一致；
第一确认单元，用于若判断单元判断结果为是，则确认所述待访问网页URL中包含该基准关键字所属关键词，为恶意网页URL。
7.如权利要求6所述的装置，其特征在于，还包括：
统计单元，用于在第一确认单元确认所述待访问网页URL中包含该基准关键字所属关键词之后，记录所述该基准关键字所属关键词，从而获得所述待访问网页URL包含的所有关键词；
选择单元，用于从统计单元获得的待访问网页URL包含的所有关键词中，选择所包含关键字数目最多的关键词作为与所述待访问网页URL最匹配的关键词。
8.如权利要求6或7所述的装置，其特征在于，还包括：
第二确认单元，用于若选择单元选择出的基准关键字的数目为0，则确认所述待访问网页URL中未包含恶意关键词表中的关键词，为正常网页URL。

恶意网页的识别方法以及识别装置\n技术领域\n[0001] 本发明涉及计算机网络技术领域，尤其涉及一种恶意网页的识别方法及一种恶意网页的识别装置。\n背景技术\n[0002] 网络技术的快速发展、普及，以及网络资源的极大丰富，在满足了人们日常学习和娱乐需求的同时，也给社会带来了一些潜在问题和危害，例如日益泛滥的暴力网站、色情网站、携带有病毒的网页等等。这些问题不仅会使我们的个人计算机面临极大的风险，同时也对青少年成长造成不利影响。\n[0003] 针对上述问题，统一资源定位符(URL，Uniform Resource Locator)过滤技术应运而生，网络中提供的共享资源通常是通过URL来定位的，因此通过对用户访问请求中对应着非法资源的URL进行识别和过滤，可以达到避免用户访问非法资源的目的。例如对某些非法网站，运营商从网络侧配置策略对其进行告警或阻断，从而防止用户访问非法网站。但是该方案对于同一个网站中，既有合法的正常网页URL、又有非法的恶意网页URL的情况就不适用了。原因如下：网页的URL通常由“网站的URL+该网站上的页面标识”组成，如果为了限制用户访问恶意网页URL而将网站的URL加入黑名单中，将会导致用户无法访问包括正常网页URL在内的该网站的所有链接。\n[0004] 由于一个网站通常会提供数以千计的网页，与网站URL的数目相比较，网页URL的数目多得多，如果仍旧采用黑名单的方式来存储恶意网页URL，将会占用大量存储空间；并且，在从用户的网络访问请求中提取待访问网页的URL后，将提取的URL与黑名单中的恶意网页URL进行匹配时，占用的系统资源较大，匹配效率较低。\n[0005] 针对上述问题，现有技术提出了关键词过滤技术的设想。其中，关键词由至少两个关键字组成，只有当待访问网页的URL匹配上了一个关键词中的所有关键字时(即待访问网页的URL中包含该关键词中的每个关键字)，确定该URL匹配中了该关键词。但是，现有技术并没有提供一种能够高效的关键词过滤技术的具体方案。\n发明内容\n[0006] 本发明实施例提供一种恶意网页的识别方法，用以解决在同一网站提供的网页中，既有正常网页又有恶意网页的情况下，现有技术无法在过滤掉恶意网页的同时，允许用户访问正常网页的问题。\n[0007] 对应地，本发明实施例还提供了一种恶意网页的识别装置。\n[0008] 本发明实施例提供的技术方案如下：\n[0009] 一种恶意网页的识别方法，包括：\n[0010] 将待访问网页URL与恶意关键词表中的关键字进行匹配，记录匹配结果，所述恶意关键词表中顺序存储有每个关键词包含的至少两个关键字、各关键字在所属关键词中的顺序号；所述匹配结果中包含匹配到的关键字、以及关键字的顺序号；\n[0011] 从匹配结果中选择基准关键字，所述基准关键字的顺序号标识该关键字为所属关键词中的第一个关键字；\n[0012] 若基准关键字的数目为至少一个，则对于每个选择出的基准关键字，执行以下步骤：\n[0013] 获得匹配结果中以所述基准关键字为起点的一组关键字，该组关键字中每个关键字的顺序号与前一个关键字的顺序号连续；\n[0014] 判断该组关键字的数目，与该基准关键字所属关键词所包含的关键字的数目是否一致；若数目一致，则确认所述待访问网页URL中包含该基准关键字所属关键词，为恶意网页URL。\n[0015] 一种恶意网页的识别装置，包括：\n[0016] 匹配单元，用于将待访问网页URL与恶意关键词表中的关键字进行匹配，记录匹配结果，所述恶意关键词表中顺序存储有每个关键词包含的至少两个关键字、各关键字在所属关键词中的顺序号；所述匹配结果中包含匹配到的关键字、以及关键字的顺序号；\n[0017] 选择单元，用于从匹配结果中选择基准关键字，所述基准关键字的顺序号标识该关键字为所属关键词中的第一个关键字；\n[0018] 获取单元，用于若选择单元选择出的基准关键字的数目为至少一个，则对于每个选择出的基准关键字，获得匹配结果中以所述基准关键字为起点的一组关键字，该组关键字中每个关键字的顺序号与前一个关键字的顺序号连续；\n[0019] 判断单元，用于判断该组关键字的数目，与该基准关键字所属关键词所包含的关键字的数目是否一致；\n[0020] 第一确认单元，用于若判断单元判断结果为是，则确认所述待访问网页URL中包含该基准关键字所属关键词，为恶意网页URL。\n[0021] 本发明实施例通过将待访问网页URL与恶意关键词表中的关键字进行匹配，记录匹配结果，所述恶意关键词表中顺序存储有每个关键词包含的至少两个关键字、各关键字在所属关键词中的顺序号；所述匹配结果中包含匹配到的关键字、以及关键字的顺序号；\n从匹配结果中选择基准关键字，所述基准关键字的顺序号标识该关键字为所属关键词中的第一个关键字；针对每个基准关键字，当匹配结果中以所述基准关键字为起点的一组顺序号连续的关键字的数目，与该基准关键字所属关键词所包含的关键字的数目一致时，确认所述待访问网页URL中包含该基准关键字所属关键词，为恶意网页URL。从而提供了一种能够区分同一网站提供的正常网页和恶意网页的实现方案。\n附图说明\n[0022] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。\n[0023] 图1为本发明实施例的主要实现原理流程图；\n[0024] 图2为本发明实施例提供的恶意关键词表实例的示意图；\n[0025] 图3为本发明实施例提供的恶意网页识别方法的流程图；\n[0026] 图4为本发明实施例中利用AC(Aho-Corasick)状态机进行关键字匹配的示意图；\n[0027] 图5为本发明实施例提供的恶意网页的识别装置的结构示意图。\n具体实施方式\n[0028] 关键词过滤技术是指在过滤设备中设置的关键词由至少两个关键字组成，其中一个关键字可以为网站URL，另一个关键字可以是非法视频的标识，如果从用户的网络访问请求中提取的待访问网页的URL中没有匹配到关键词中的所有关键字，则无需对所述网络访问请求进行阻断、丢弃等过滤处理。例如待访问网页的URL只匹配到了关键词中的网站URL、而未匹配到关键词中的非法视频的标识，则认为未匹配到关键词，不对所述网络访问请求进行过滤处理。从而避免出现用户无法访问网站中正常网页URL的情况。\n[0029] 然而，如何对关键词表中的所有关键词进行高效地匹配，仍然是一个需要解决的问题。\n[0030] 下面结合各个附图对本发明实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。\n[0031] 如图1所示，本发明实施例的主要实现原理流程如下：\n[0032] 步骤10，将待访问网页URL与恶意关键词表中的关键字进行匹配，记录匹配结果，所述匹配结果中包含匹配到的关键字、以及对应的顺序号。\n[0033] 在恶意关键词表中，顺序存储有每个关键词包含的关键字、各关键字在所属关键词中的顺序号，所述每个关键词包含至少两个关键字。\n[0034] 步骤20，从匹配结果中选择基准关键字，所述基准关键字的顺序号标识该关键字为所属关键词中的第一个关键字。\n[0035] 对于每个选择出的基准关键字，执行以下步骤30～步骤50：\n[0036] 步骤30，获得匹配结果中以所述基准关键词为起点的一组关键字，该组关键字中每个关键字的顺序号与前一个关键字的顺序号连续、且存储位置相邻。\n[0037] 步骤40，判断该组关键字的数目，与该基准关键字所属关键词所包含的关键字的数目是否一致，若数目一致，则进行步骤50，否则处理下一个基准关键词。\n[0038] 步骤50，确认所述待访问网页URL中包含恶意关键词表中的关键词，为恶意网页。\n[0039] 可选地，为了便于进行恶意关键词表更新，或者进行社会学方面的研究，需要对恶意关键词表中各关键词被匹配上的概率进行统计，特别是得到针对性强的统计结果，或者出于对网页进行分类目的，需要得到与恶意网页最匹配的关键词，然而在循环执行步骤\n30～步骤50的过程中，可能会出现待访问网页URL中包含恶意关键词表中的至少两个关键词的情况，因此在执行上述步骤50之后，还包括：\n[0040] 记录所述该基准关键字所属关键词，从而获得所述待访问网页URL包含的所有关键词；\n[0041] 从所述待访问网页URL包含的所有关键词中，选择所包含关键字数目最多的关键词作为与所述待访问网页URL最匹配的关键词。例如，所述待访问网页URL包含两个关键词，分别为关键词A和关键词B，其中关键词A包含3个关键字，而关键词B包含2个关键字，则关键词A为与所述待访问网页URL最匹配的关键词。\n[0042] 进一步，选择所包含关键字数目最多的关键词作为与所述待访问网页URL最匹配的关键词时，有可能出现至少两个关键词包含的关键字数目相同、且包含的关键字数目在所述待访问网页URL包含的所有关键词中最多的情况，则在选择时执行：\n[0043] 若所包含关键字数目最多的关键词的数目为一个，则将该关键词作为与所述待访问网页URL最匹配的关键词；\n[0044] 若所包含关键字数目最多的关键词的数目为至少一个，则按照距离所述待访问网页URL的起始位置由近至远的顺序，从中选择一个距离所述待访问网页URL的起始位置最近的关键词，作为与所述待访问网页URL最匹配的关键词。\n[0045] 例如，待访问网页URL包含3个关键词，分别为关键词A、关键词B和关键词C，其中关键词A和关键词C均包含3个关键字，而关键词B包含2个关键字，如果待访问网页URL＝“......(无关词语)+关键词A+......(无关词语)+关键词B+关键词C”，则将关键词A作为与所述待访问网页URL最匹配的关键词。\n[0046] 上述按照按照距离所述待访问网页URL的起始位置由近至远的顺序，选择关键词的目的在于，使各关键词在包含关键字数目相同的关键词中被选中的概率均等，因此除了上述选择方式之外，也可以采用其他选择方式，例如随机选择，或者由远至近的选择顺序，在这里不再一一列举。\n[0047] 下面将依据本发明上述发明原理，详细介绍一个实施例来对本发明方法的主要实现原理进行详细的阐述和说明。\n[0048] 预先在过滤设备中配置的恶意关键词表中顺序存储有每个关键词包含的关键字、各关键字在所属关键词中的顺序号。其中过滤装置可以为接入网关、路由器等设备。\n[0049] 该恶意关键词表可采用如下方式生成：接收运营商管理人员输入的关键词，对各关键词按照输入先后、字数多少等预定规则进行排序，存储排序后的关键词后，采用字库匹配分词或人工划分的方式，将关键词划分为至少两个关键字，记录每个关键字在所属关键词中的顺序号。并存储每个关键字的存储序号。\n[0050] 图2为本实施例中给出的恶意关键词表的实例。在本实施例中共有3个关键词，关键词A为“baidu.com”，包含两个关键字“baidu”和“com”；关键词B为“123.google.com.456”，包含四个关键字“123”、“google”、“com”和“456”；关键词C为“ns*df.ad_gd”，包含两个关键字“ns*df”和“ad_gd”。各关键字在所属关键词中的顺序、以及各关键字的存储序号如附图2所示。\n[0051] 附图3为本发明实施例提供的恶意网页识别方法的流程图，该方法基于如附图2所示的恶意关键词表进行识别。\n[0052] 步骤301，获取用户的网络访问请求。\n[0053] 网络访问请求可以是超文本传输协议(HTTP，HyperText Transfer Protocol)请求，或者无线应用协议(WAP，Wireless Application Protocol)请求等。\n[0054] 网络访问请求可以通过如下方式获得：从路由器或交换机中截取流经的数据包，通过逐层协议解析识别出网络访问请求，所述网络访问请求的应用层数据包头中携带有预先设定的特征码。\n[0055] 步骤302，从所述网络访问请求中提取待访问网页URL。\n[0056] 例如，对HTTP请求进行协议解析，从数据包载荷部分获取待访问网页URL，在本实施例中，待访问网页URL为www.baidu.com？/v＝123456。\n[0057] 步骤303，将待访问网页URL与附图2所示的恶意关键词表中的关键字进行匹配，记录匹配结果。\n[0058] 所述匹配结果中包含匹配到的关键字、以及对应的顺序号；所述恶意关键词表中顺序存储有每个关键词包含的关键字、对应的该关键字在所属关键词中的顺序号。在进行匹配时，可以采用SBOM(Set Backward Oracle Matching)、K-trie匹配算法，或者采用AC状态机进行匹配。附图4所示的步骤3031～步骤3035，对采用AC状态机进行匹配的过程进行简单介绍。\n[0059] AC状态机算法是多模式匹配算法，算法里引入了有限状态机的概念。有限状态机是系统所有可能状态以及该系统可接受的状态转换的信息的表示。有限状态机的处理是从初始状态开始，接受一个输入事件，根据输入事件从当前状态移动到下一个适当的状态。有限自动机算法建立了三个函数，转向函数goto，失效函数failure和输出函数output，通过这三个函数得到匹配结果。这样模式匹配的处理过程就变成了状态转换的处理过程。\n[0060] 步骤3031，根据附图2所示的恶意关键词表中的关键字构建AC状态机的所有可能状态，其中初始状态为恶意关键词表中的第一个关键字，AC状态机的其他可能状态包括第一个关键字与恶意关键词表中在此之后至少一个顺序(不一定连续)排列的其他关键字的组合结果。例如：初始状态为baidu(0)，可能状态包括状态S1：baidu(0)/com(1)、baidu(0)/com(1)/123(2)、......、状态Sn：baidu(0)/123(2)/google(3)...。\n[0061] 步骤3032，获得待访问URL中第一个与AC状态机的初始状态相同的词语；\n[0062] 在本实施例中，待访问网页URLwww.baidu.com？/v＝123456中第一个与恶意关键词表中的关键字一致的词语为baidu。\n[0063] 步骤3033，在AC状态机中，依次输入待访问URL中在与AC状态机的初始状态相同的词语之后的各个词语，每输入一个词语，则AC状态机移动一次状态，即发生一次转向，当AC状态机中发生最后一次转向时，记录当前状态对应的关键字组合中的各个关键字、及各关键字的存储序号。\n[0064] 在本实施例中，最后依次转向后，当前状态对应的关键字组合中的各个关键字、及各关键字的存储序号为：baidu(0)、com(1、4)、123(2)、456(5)。\n[0065] 步骤3034，按照存储序号，对当前状态对应的关键字组合中的各个关键字进行排序，通过查找恶意关键词表中各关键字的存储序号与顺序号的对应关系，获得匹配结果，即得到排序后的各关键词、及各关键字的顺序号作为匹配结果。\n[0066] 例如，按照存储序号，排序结果为baidu(0)/com(1)/123(2)/com(4)/456(5)，查找图2所示恶意关键词表，得到匹配结果，记为关键字(顺序号)：baidu(0)/com(1)/123(0)/com(2)/456(3)。\n[0067] 步骤304，从匹配结果中选择出基准关键字，所述基准关键字的顺序号标识该关键字为所属关键词中的第一个关键字。\n[0068] 步骤305，判断选择出的基准关键词的数目是否为0，若基准关键词的数目为至少一个，则对于每个选择出的基准关键字，执行以下步骤306～步骤309；若基准关键词的数目为0，即所述匹配结果中未包含基准关键字，则进入步骤310。\n[0069] 在本实施例中即为选择顺序号为0的关键字作为基准关键字，基准关键字为baidu和/或123。\n[0070] 步骤306，获得匹配结果中以所述基准关键词为起点的一组关键字，该组关键字中每个关键字的顺序号与前一个关键字的顺序号连续。\n[0071] 匹配结果中以基准关键词baidu为起点的一组关键词为baidu(0)/com(1)。\n[0072] 由于匹配结果中123(0)与下一个关键词com(2)的顺序号不连续，则匹配结果中以基准关键词123为起点的一组关键词为123(0)。\n[0073] 步骤307，判断该组关键字的数目，与该基准关键字所属关键词所包含的关键字的数目是否一致，若一致进入步骤308；若不一致，返回步骤305，处理下一个基准关键词。\n[0074] 本实施例中，以基准关键词baidu(0)为起点的一组关键词baidu(0)/com(1)的数目为2。参照附图2，baidu(0)所属关键词baidu com所包含的关键字的数目为2。以基准关键词baidu为起点的一组关键词的数目与baidu(0)所属关键词包含的关键字的数目相同。\n[0075] 本实施例中，以基准关键词123(0)为起点的一组关键词123(0)的数目为1。参照附图2，123(0)所属关键词123google com 456所包含的关键字的数目为4。以基准关键词\n123为起点的一组关键词的数目与123(0)所属关键词包含的关键字的数目不同。\n[0076] 步骤308，确认所述待访问网URL中包含恶意关键词表中的关键词，为恶意网页。\n[0077] 本实施例中，确认待访问网页URL中包含baidu(0)所属关键词baidu com。\n[0078] 可选地，在步骤308之后还包括：\n[0079] 步骤309，对所述网络访问请求进行过滤、丢弃、拒绝等处理。\n[0080] 步骤310，确认所述待访问网页URL中未包含恶意关键词表中的关键词，为正常网页。即如果匹配结果中未包含基准关键字，则可以直接确认待访问网页为正常网页，加快了处理速度。\n[0081] 可选地，如果采用附图3所示的识别方法的目的仅为过滤包含恶意关键词的网络访问请求，那么在步骤305～步骤307中，只要第一次确认待访问网页URL中包含恶意关键词表中的关键词，即只要执行一次步骤307，就可以结束处理，进一步对网络访问请求进行过滤。若直到处理完最后一个基准关键字，均未执行步骤307，则确认待访问网页为正常网页。如果采用附图3所示的识别方法的目的除了过滤包含恶意关键词的网络访问请求之外，还有更新恶意关键词表，或者社会学统计等等，可以重复执行步骤305～步骤308，直到处理完匹配结果中的每个基准关键词为止。\n[0082] 若直到处理完匹配结果中的每个基准关键词，均未执行步骤307，则进入步骤\n310。\n[0083] 在本发明实施例提供的恶意网页的识别方案中，首先构建包含有关键词中的各关键字、以及各关键字在所属关键词中顺序号的恶意关键词表，其中每个关键词由至少两个关键字组成。将待访问网页URL与恶意关键词表中的关键字进行匹配，得到包含匹配到的关键字、以及匹配到得关键词的顺序号的匹配结果。根据匹配结果，识别待访问网页URL是否包含恶意关键词。给出了能够达到关键词过滤目标的一种高效的实现方案。\n[0084] 相应地，本发明实施例还提供了一种恶意网页的识别装置，如图5所示，该装置包括匹配单元501、选择单元502、获取单元503、判断单元504和第一确认单元505，具体如下：\n[0085] 匹配单元501，用于将待访问网页URL与恶意关键词表中的关键字进行匹配，记录匹配结果，所述恶意关键词表中顺序存储有每个关键词包含的至少两个关键字、各关键字在所属关键词中的顺序号；所述匹配结果中包含匹配到的关键字、以及关键字的顺序号；\n[0086] 选择单元502，用于从匹配结果中选择基准关键字，所述基准关键字的顺序号标识该关键字为所属关键词中的第一个关键字；\n[0087] 获取单元503，用于若选择单元502选择出的基准关键字的数目为至少一个，则对于每个选择出的基准关键字，获得匹配结果中以所述基准关键字为起点的一组关键字，该组关键字中每个关键字的顺序号与前一个关键字的顺序号连续；\n[0088] 判断单元504，用于判断该组关键字的数目，与该基准关键字所属关键词所包含的关键字的数目是否一致；\n[0089] 第一确认单元505，用于若判断单元504判断结果为是，则确认所述待访问网页URL中包含该基准关键字所属关键词，为恶意网页URL。\n[0090] 可选地，为了对恶意关键词表中各关键词被匹配上的概率进行统计时得到针对性强的统计结果，或者对网页进行分类时得到与恶意网页最匹配的关键词，附图5所示的装置还包括：\n[0091] 统计单元506，用于在第一确认单元505确认所述待访问网页URL中包含该基准关键字所属关键词之后，记录所述该基准关键字所属关键词，从而获得所述待访问网页URL包含的所有关键词；\n[0092] 选择单元507，用于从统计单元506获得的待访问网页URL包含的所有关键词中，选择所包含关键字数目最多的关键词作为与所述待访问网页URL最匹配的关键词。\n[0093] 可选地，为了加快处理速度，提高处理效率，附图5所示的装置还包括：\n[0094] 第二确认单元508，用于若选择单元502选择出的基准关键字的数目为0，则确认所述待访问网页URL中未包含恶意关键词表中的关键词，为正常网页URL。\n[0095] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读取存储介质中，如：\nROM/RAM、磁碟、光盘等。\n[0096] 显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有引用任何外部专利数据！

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供