著录项信息
专利名称 | 一种垃圾消息的识别方法、装置和系统 |
申请号 | CN200910131229.8 | 申请日期 | 2009-04-10 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2009-09-16 | 公开/公告号 | CN101534261 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | H04L12/58 | IPC分类号 | H;0;4;L;1;2;/;5;8;;;G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 阿里巴巴集团控股有限公司 | 申请人地址 | 英属开曼群岛大开曼岛资本大厦一座四层847号邮箱
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 阿里巴巴集团控股有限公司 | 当前权利人 | 阿里巴巴集团控股有限公司 |
发明人 | 张利明;闻波 |
代理机构 | 北京挺立专利事务所(普通合伙) | 代理人 | 叶树明 |
摘要
本申请公开了一种垃圾消息的识别方法、装置和系统,该方法包括提取通讯消息中的发送方信息;根据所述提取的发送方信息,判断所述通讯消息的发送方是否为可预期发送方,如果所述通讯消息的发送方不是所述可预期发送方,则识别所述通讯消息为垃圾消息,或继续对所述通讯消息进行识别。本申请通过判断通讯消息的发送方是否为可预期用户,进行垃圾消息的识别,降低了对垃圾消息的漏判率和误判率,提高了识别垃圾消息的准确率,进而增强了信息过滤的效果。
一种垃圾消息的识别方法、装置和系统\n技术领域\n[0001] 本申请涉及网络通信技术领域,特别涉及一种垃圾消息的识别方法、装置和系统。\n背景技术\n[0002] 随着通信技术的发展,各种通讯系统的发明使用大大方便了用户之间的相互交流。两个或两个以上的客户端可以通过通讯网络进行连接,即时地传递文字、档案、语音和视频信息。\n[0003] 然而,在大量的通讯消息中存在着相当一部分无用的、甚至带有欺骗性质的垃圾消息,不仅给通讯系统中的服务器增加了额外的负担,也给处于客户端的用户造成了极其恶劣的影响。用户接收到垃圾消息后,需要花费大量的时间用于确认接收到的消息是否有用以及删除确认无用的垃圾消息,甚至还会由于大量的垃圾消息的聚集而错过正常消息的接收,严重干扰了用户之间的正常交流。同时,大量的垃圾消息也会影响即时通讯系统运营商的信誉,给网络监管带来困难,甚至会使运营商的生产环境短时间内瘫痪,使运营商蒙受巨额的经济损失。\n[0004] 现有技术中,通常采用预设的关键词对接收到的通讯消息进行过滤,以识别垃圾消息,具体步骤包括:首先,通过对大量的垃圾消息的分析,总结垃圾消息中常用到的一些关键词,组成关键词库,放置到即时通讯系统服务器或客户端中,关键词可以是“中奖”、“服装大甩卖”、“汇款”、“转让”等词语,在很大程度上表明该信息是以宣传、广告、诈骗等为目的的垃圾信息;其次,接收到通讯消息后,提取该通讯消息的消息内容,以供查验;最后,对照关键词库,查验接收到的通讯消息的信息内容中是否含有关键词库内存储的关键词,如果该消息内容中含有关键词,则判定该通讯消息为垃圾消息,对该通讯消息进行丢弃;如果该消息内容中不含有关键词,则判定该通讯消息为正常消息。\n[0005] 另外,还采用预设的正则表达式(regular expression)对接收到的通讯消息的消息内容中的某种格式进行匹配,以识别垃圾消息。正则表达式描述了一种字符串匹配的模式,可以用于检查一个字符串是否含有某种子字符串、将匹配的子字符串做替换或者从某个字符串中取出符合某个条件的子字符串等。正则表达式判断消息内容中是否存在匹配的关键特征,如网址、电话号码、即时通讯联系号码等信息,如果消息内容中存在匹配的关键特征,则判定该通讯消息为垃圾消息。\n[0006] 现有技术也可以对上述两种识别垃圾消息的方法进行组合,综合使用预设的关键词和正则表达式,过滤接收到的通讯消息,以识别垃圾消息。\n[0007] 在实现本申请的过程中,发明人发现现有技术至少存在以下问题:\n[0008] 现有技术中,通过对消息内容进行规则匹配识别垃圾消息,识别的准确率取决于关键词和正则表达式的设定是否合适。关键词和正则表达式一般是根据经验设定或者从已经标记为垃圾消息的消息中选取,具有一定的随意性,无法识别不在关键词范围内或关键词出现频率较低的垃圾消息。而符合垃圾消息的部分特征、但不属于垃圾消息的消息,却容易被误判为垃圾消息。例如,某些垃圾消息中包含“视频聊天”的词语,如果把“视频聊天”设定为关键词来识别垃圾消息,则用户希望邀请其他人进行视频聊天的、包含“视频聊天”的正常消息就会被误判为垃圾消息。因此,现有的垃圾消息的识别方法,仅仅对消息内容进行机械式的识别,没有考虑到消息发送的场景,对垃圾消息的识别结果存在很大的误判率和漏判率。\n发明内容\n[0009] 本申请提供一种垃圾消息的识别方法、装置和系统,提高了识别垃圾消息的准确率。\n[0010] 本申请提供一种垃圾消息的识别方法,包括:\n[0011] 提取通讯消息中的发送方信息;\n[0012] 根据所述提取的发送方信息,判断所述通讯消息的发送方是否为可预期发送方,如果所述通讯消息的发送方不是所述可预期发送方,则识别所述通讯消息为垃圾消息,或继续对所述通讯消息进行识别。\n[0013] 本申请还提供一种通讯设备,包括:\n[0014] 提取模块,用于提取通讯消息中的发送方信息;\n[0015] 第一判断模块,用于根据所述提取模块提取的发送方信息,判断所述通讯消息的发送方是否为可预期发送方;\n[0016] 识别模块,用于在所述第一判断模块判断所述通讯消息的发送方不是所述可预期发送方时,识别所述通讯消息为垃圾消息,或继续对所述通讯消息进行识别。\n[0017] 本申请还提供一种通讯系统,包括:\n[0018] 第一通讯设备,用于提取通讯消息中的发送方信息,根据所述提取的发送方信息,判断所述通讯消息的发送方是否为可预期发送方,在所述通讯消息的发送方不是所述可预期发送方时,将所述通讯消息标记为待识别消息,向第二通讯设备转发标记后的通讯消息;\n[0019] 第二通讯设备,用于根据以下内容中的至少一项,对接收到的来自所述第一通讯设备的通讯消息进行识别:\n[0020] 预设的关键词列表、预设的正则表达式和预设的垃圾消息识别选项。\n[0021] 本申请包括以下优点,由于通过判断通讯消息的发送方是否为可预期用户,进行垃圾消息的识别,降低了对垃圾消息的漏判率和误判率,提高了识别垃圾消息的准确率,进而增强了信息过滤的效果。当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。\n附图说明\n[0022] 为了更清楚地说明本申请或现有技术的技术方案,下面将对本申请或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。\n[0023] 图1为本申请实施例一中的一种垃圾消息的识别方法流程图;\n[0024] 图2为本申请实施例二中的一种垃圾消息的识别方法流程图;\n[0025] 图3为本申请实施例三中的一种垃圾消息的识别方法流程图;\n[0026] 图4为本申请实施例四中的一种垃圾消息的识别方法流程图;\n[0027] 图5为本申请实施例五中的一种垃圾消息的识别方法流程图;\n[0028] 图6为本申请实施例六中的一种垃圾消息的识别方法流程图;\n[0029] 图7为本申请实施例七中的一种通讯设备结构示意图;\n[0030] 图8为本申请实施例八中的一种通讯系统结构示意图。\n具体实施方式\n[0031] 本申请的主要思想包括,提取通讯消息中的发送方信息;根据提取的发送方信息,判断通讯消息的发送方是否为可预期发送方;如果通讯消息的发送方是可预期发送方,则识别该通讯消息为正常消息;如果通讯消息的发送方不是可预期发送方,则识别该通讯消息为垃圾消息,或继续对接收到的通讯消息进行识别。本申请实施例中,可以由发送客户端执行上述对垃圾消息的识别方法,对待发送的通讯消息进行识别;也可以由系统服务器执行上述对垃圾消息的识别方法,对中转的通讯消息进行识别;还可以由接收客户端执行上述对垃圾消息的识别方法,对接收到的通讯消息进行识别。不论在发送客户端、系统服务器或接收客户端执行上述对垃圾消息的识别方法,对垃圾消息的识别效果相同,均可以达到本申请的发明目的。\n[0032] 下面将结合本申请实施例中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。\n[0033] 如图1所示,为本申请实施例一中的一种垃圾消息的识别方法流程图,包括以下步骤:\n[0034] 步骤101,提取通讯消息中的发送方信息。\n[0035] 本申请实施例中的通讯消息可以为IM(Instant Messaging,即时通讯)系统中的即时消息、SMS(Short Messaging Service,短消息业务)消息、MMS(Multimedia Messaging Service,多媒体短信业务)消息或E-mail(electronicmail,电子邮件)等,通讯消息本身可以包括发送时间、发送方信息、接收方信息和消息内容等部分。通讯消息由发送客户端发送,经系统服务器转发到接收客户端。其中,接收方信息包括接收方名称、接收方ID(Identity,身份标识号码)和接收方地址等内容。\n[0036] 系统服务器或接收客户端可以在接收到通讯消息后,提取通讯消息中的发送方信息,发送方信息可以包括发送方名称、发送方ID和发送方地址等内容。\n[0037] 步骤102,根据提取的发送方信息,判断通讯消息的发送方是否为可预期发送方。\n[0038] 如果通讯消息的发送方是可预期发送方,则执行步骤103;如果通讯消息的发送方不是可预期发送方,则执行步骤104。\n[0039] 可预期发送方包括以下用户中的至少一种:系统用户、通讯消息的接收方的好友用户和通讯消息的接收方主动联系过的非好友用户。\n[0040] 判断通讯消息的发送方是否为可预期发送方,包括:获取系统用户名单、通信消息的接收方的好友用户名单和通讯消息接收方主动联系过的非好友用户名单;如果通讯消息的发送方信息记录在系统用户名单、通信消息的接收方的好友用户名单和通讯消息接收方主动联系过的非好友用户名单的任一项中,则判断通讯消息的发送方是可预期发送方。\n[0041] 其中,系统用户为发送通讯消息的第三方用户,可以包括通讯服务提供商。系统用户向接收方发送的消息通常以通知或提醒的形式出现,接收方可以将系统用户作为可预期发送方。系统用户名单可以存储在系统服务器中,客户端识别垃圾消息时,可以向系统服务器查询系统用户名单,也可以接收来自系统服务器的系统用户名单。\n[0042] 通讯消息的接收方的好友用户在向接收方发送通讯消息之前,与接收方建立好友关系,并通过接收方的身份认证,接收方可以将自身的好友用户作为可预期发送方。通信消息的接收方的好友用户名单可以存储在接收方客户端,系统服务器识别垃圾消息时,可以向接收方客户端查询接收方的好友用户名单,也可以接收来自接收方客户端的接收方的好友用户名单。\n[0043] 通讯消息的接收方主动联系过的非好友用户在向接收方发送通讯消息之前,未与接收方建立好友关系,但曾接收到该接收方发送的消息。通讯消息接收方主动联系过的非好友用户名单可以存储在接收方客户端,接收方客户端可以周期性地或事件触发性地将自身的好友用户信息和自身主动联系过的非好友用户信息上传到系统服务器,也可以接受系统服务器或其他客户端的查询,供系统服务器和其他客户端识别垃圾消息。\n[0044] 步骤103,识别通讯消息为正常消息。\n[0045] 如果通讯消息的发送方是可预期发送方,则识别该通讯消息为正常消息,并按照正常的流程处理该通讯消息。系统服务器识别接收到的通讯消息为正常消息后,可以对该通讯消息进行正常的转发;接收客户端识别接收到的通讯消息为正常消息后,可以按照该通讯消息进行相应的操作,并将该通讯消息的发送方加入到白名单。\n[0046] 步骤104,识别通讯消息为垃圾消息,或继续对该通讯消息进行识别。\n[0047] 如果通讯消息的发送方不是可预期发送方,则可以识别该通讯消息为垃圾消息,对该通讯消息进行丢弃处理,并将该通讯消息的发送方加入到黑名单;也可以继续对该通讯消息进行识别,识别方法可以包括使用预设的关键词列表、预设的正则表达式和预设的垃圾消息识别选项中的至少一项进行识别。\n[0048] 需要说明的是,本申请实施例可以根据实际需要对各个步骤顺序进行调整。上述使用预设的关键词列表、预设的正则表达式和预设的垃圾消息识别选项中的至少一项识别垃圾消息的步骤,也可以在使用发送方信息识别垃圾消息的步骤之前执行。\n[0049] 本申请包括以下优点,由于通过判断通讯消息的发送方是否为可预期用户,进行垃圾消息的识别,降低了对垃圾消息的漏判率和误判率,提高了识别垃圾消息的准确率,进而增强了信息过滤的效果。当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。\n[0050] 如图2所示,为本申请实施例二中的一种垃圾消息的识别方法流程图,包括以下步骤:\n[0051] 步骤201,发送客户端提取待发送的通讯消息中的发送方信息。\n[0052] 发送客户端获取待发送的通讯消息后,可以不立即将该通讯消息发送到指定的客户端,而是提取该通讯消息中的发送方信息,以进行垃圾消息的识别。发送方信息可以包括发送方名称、发送方ID和发送方地址等内容。\n[0053] 步骤202,发送客户端根据提取的发送方信息,判断待发送的通讯消息的发送方是否为可预期发送方。\n[0054] 如果待发送的通讯消息的发送方是可预期发送方,则执行步骤203;如果待发送的通讯消息的发送方不是可预期发送方,则执行步骤205。\n[0055] 可预期发送方包括以下用户中的至少一种:系统用户、通讯消息的接收方的好友用户和通讯消息的接收方主动联系过的非好友用户。\n[0056] 系统中的客户端也可以将自身的好友用户信息和自身主动联系过的非好友用户信息,周期性地或事件触发性地上传到系统服务器。系统服务器也可以将上述从客户端接收到的信息,周期性地或事件触发性地发送到系统中的其他客户端,或者接受其他客户端的查询,供其他客户端进行垃圾消息的识别。发送客户端可以从待发送的通讯消息中提取接收方信息,并根据接收方信息从系统服务器查询接收方的好友用户信息和接收方主动联系过的非好友用户信息,进而判断待发送的通讯信息的发送方是否为接收方的可预期发送方。\n[0057] 步骤203,发送客户端识别待发送的通讯消息为正常消息,将该通讯消息发送到系统服务器。\n[0058] 如果通讯消息的发送方是可预期发送方,发送客户端识别该通讯消息为正常消息,并将该通讯消息发送到系统服务器。\n[0059] 步骤204,系统服务器将接收到的通讯消息转发给接收客户端,或对接收到的通讯消息进行识别。\n[0060] 系统服务器接收到发送方客户端发送的通讯消息后,可以提取该通讯消息中的接收方信息,并根据该接收方信息将该通讯消息转发给接收方客户端;也可以继续对接收到的通讯消息进行识别,识别方法可以包括使用预设的关键词列表、正则表达式和垃圾消息识别选项中的至少一项进行识别。\n[0061] 步骤205,发送客户端判断待发送的通讯消息的消息内容是否与预设的关键词列表匹配。\n[0062] 如果待发送的通讯消息的消息内容与预设的关键词列表匹配,则执行步骤206;\n如果待发送的通讯消息的消息内容与预设的关键词列表不匹配,则执行步骤207。\n[0063] 关键词列表可以包含各种用于宣传广告信息、恶意传播流言信息和不文明信息的垃圾消息中常用的关键词,例如,“服装大甩卖”、“转让门面店”、“中奖”、“请汇款”等用词,还可以包含一些常用的英文广告词、英文不文明用语等。关键词列表可以由用户个性化设定,也可以由系统服务器下发到各个客户端。\n[0064] 发送客户端对待发送的通讯消息提取消息内容,对照预设的关键词列表,查验该消息内容中是否包含关键词列表中相应的关键词,如果查验到该消息内容中包含相应的关键词,则该消息内容与预设的关键词列表匹配;如果查验到该消息内容中不包含相应的关键词,则该消息内容与预设的关键词列表不匹配。\n[0065] 发送客户端还可以对提取的消息内容进行格式转换,将消息内容转换为统一的格式,再进行查验,如全部转换为小写、半角格式,防止垃圾消息发送者对一些关键词进行大、小写或全角、半角变换来规避查验。\n[0066] 步骤206,发送客户端识别待发送的通讯消息为垃圾消息。\n[0067] 如果待发送的通讯消息的消息内容与预设的关键词列表匹配,即该消息内容中包含相应的关键词,则发送客户端识别待发送的通讯消息为垃圾消息,并对该待发送的通讯消息进行丢弃处理。\n[0068] 步骤207,发送客户端判断待发送的通讯消息的消息内容是否符合预设的垃圾消息识别选项。\n[0069] 如果待发送的通讯消息的消息内容符合预设的垃圾消息识别选项,则执行步骤203;如果待发送的通讯消息的消息内容不符合预设的垃圾消息识别选项,则执行步骤\n206。\n[0070] 如果待发送的通讯消息的消息内容与预设的关键词列表不匹配,即该消息内容中不包含相应的关键词,则发送客户端可以提取待发送的通讯消息的消息内容,并判断提取到的消息内容是否符合预设的垃圾消息识别选项。\n[0071] 预设的垃圾消息识别选项可以包括以下内容中的至少一项:a、不允许出现电话号码;b、不允许出现网络链接;c、不允许出现IM号码;d、不允许出现图片。用户可以根据自身的需求,个性化设定上述垃圾消息识别选项。\n[0072] 需要说明的是,本申请实施例可以根据实际需要对各个步骤顺序进行调整。上述使用预设的垃圾消息识别选项识别垃圾消息的步骤,可以在使用预设的关键词列表识别垃圾消息的步骤之前执行;上述使用预设的关键词列表和预设的垃圾消息识别选项识别垃圾消息的步骤,也可以在使用发送方信息识别垃圾消息的步骤之前执行。当上述使用预设的关键词列表或预设的垃圾消息识别选项识别垃圾消息的步骤,在使用发送方信息识别垃圾消息的步骤之前执行时,若通讯消息的消息内容与预设的关键词列表匹配或消息内容不符合预设的垃圾消息识别选项,则暂时识别该通讯消息为垃圾消息,然后再通过判断该通讯消息的发送方是否是可预期用户进行进一步确认。即,若该通讯消息的发送方不是可预期用户,则确认该通讯消息为垃圾消息,若该通讯消息的发送方是可预期用户,则更改该通讯消息为正常消息。作为本申请实施例的替换方案,若通讯消息的消息内容与预设的关键词列表匹配或消息内容不符合预设的垃圾消息识别选项,也可以直接识别该通讯消息为垃圾消息,并对该通讯消息作丢弃处理。\n[0073] 本申请包括以下优点,通过发送客户端主动判断通讯消息的发送方是否为接收方的可预期用户,以及根据预设的关键词列表和垃圾消息识别选项进行垃圾消息的识别,降低了对垃圾消息的漏判率和误判率,提高了识别垃圾消息的准确率,进而增强了信息过滤的效果。当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。\n[0074] 本申请的以上实施方式中,由发送客户端判断待发送的通讯消息的发送方是否为接收方的可预期用户,并结合预设的关键词列表和垃圾消息识别选项进行垃圾消息的识别。本申请实施例中,还可以由系统服务器判断接收到的通讯消息的发送方是否为接收方的可预期用户,并由接收客户端根据预设的关键词列表和正则表达式进行垃圾消息的识别。以下通过具体实施例进行详细描述。\n[0075] 如图3所示,为本申请实施例三中的一种垃圾消息的识别方法流程图,包括以下步骤:\n[0076] 步骤301,系统服务器接收发送客户端发送的通讯消息。\n[0077] 通讯消息由发送客户端发送,经系统服务器转发到接收客户端,可以包括发送时间、发送方信息、接收方信息和消息内容等部分。\n[0078] 步骤302,系统服务器提取接收到的通讯消息中的发送方信息。\n[0079] 系统服务器接收到发送客户端发送的通讯消息后,可以不立即将该通讯消息转发到指定的客户端,而是提取该通讯消息中的发送方信息,以进行垃圾消息的识别。发送方信息可以包括发送方名称、发送方ID和发送方地址等内容。\n[0080] 步骤303,系统服务器根据提取的发送方信息,判断接收到的通讯消息的发送方是否为可预期发送方。\n[0081] 如果接收到的通讯消息的发送方是可预期发送方,则执行步骤304;如果接收到的通讯消息的发送方不是可预期发送方,则执行步骤306。\n[0082] 可预期发送方包括以下用户中的至少一种:系统用户、通讯消息的接收方的好友用户和通讯消息的接收方主动联系过的非好友用户。\n[0083] 系统中的客户端也可以将自身的好友用户信息和自身主动联系过的非好友用户信息,周期性地或事件触发性地上传到系统服务器。系统服务器也可以将上述从客户端接收到的信息,周期性地或事件触发性地向系统中的其他客户端公布,供其他客户端进行垃圾消息的识别。系统服务器可以从接收到的通讯消息中提取接收方信息,并根据接收方信息查询接收方的好友用户信息和接收方主动联系过的非好友用户信息,进而判断接收到的通讯信息的发送方是否为接收方的可预期发送方。\n[0084] 步骤304,系统服务器将接收到的通讯消息标记为正常消息,并向接收客户端转发标记后的通讯消息。\n[0085] 如果接收到的通讯消息的发送方是可预期发送方,系统服务器识别该通讯消息为正常消息,并提取该通讯消息中的接收方信息,根据该接收方信息将该通讯消息转发给接收方客户端。接收客户端可以按照接收到的通讯消息进行相应的操作,不再对该通讯消息进行识别。\n[0086] 步骤305,系统服务器将接收到的通讯消息标记为待识别消息,并向接收客户端转发标记后的通讯消息。\n[0087] 如果接收到的通讯消息的发送方不是可预期发送方,系统服务器识别该通讯消息为待识别消息,并提取该通讯消息中的接收方信息,根据该接收方信息将该通讯消息转发给接收方客户端,由接收客户端继续对该通讯消息进行识别。接收客户端的识别方法可以包括使用预设的关键词列表、正则表达式和垃圾消息识别选项中的至少一项进行识别。\n[0088] 步骤306,接收客户端使用预设的关键词列表,对接收到的通讯消息的消息内容进行匹配,并获取与消息内容匹配的关键词的分值。\n[0089] 关键词列表用于判断通讯消息中是否包含垃圾消息的特征词语,可以由用户个性化设定,也可以由系统服务器下发到各个客户端。每个关键词对应预设的分值,用于标示该关键词出现在垃圾消息中的可能性,不同关键词的分值可以相同或不同。\n[0090] 接收客户端对接收到的通讯消息提取消息内容,对照预设的关键词列表,查验该消息内容中是否包含关键词列表中相应的关键词,如果查验到该消息内容中包含相应的关键词,则判断该消息内容与预设的关键词列表匹配,并获取与该消息内容匹配的关键词的分值。与消息内容匹配的正则表达式为一个以上时,接收客户端可以获取所有与消息内容匹配的正则表达式的分值。\n[0091] 接收客户端还可以对提取的消息内容进行格式转换,将消息内容转换为统一的格式,再进行查验,如全部转换为小写、半角格式,防止垃圾消息发送者对一些关键词进行大、小写或全角、半角变换来规避查验。\n[0092] 步骤307,接收客户端使用预设的正则表达式,对接收到的通讯消息的消息内容进行匹配,并获取与消息内容匹配的正则表达式的分值。\n[0093] 正则表达式用于从消息内容中辨别某些关键特征,比如电话号码、网络链接或IM号码等。不同的正则表达式对应不同的关键特征,接收客户端可以通过特定的正则表达式,判断接收到的通讯消息的消息内容中是否包含特定的关键特征,如果该消息内容中包含该关键特征,则该消息内容与该关键特征对应的正则表达式匹配。\n[0094] 正则表达式可以由用户个性化设定,也可以由系统服务器下发到各个客户端。每个正则表达式对应预设的分值,用于标示该正则表达式从消息内容中辨别的关键特征出现在垃圾消息中的可能性,不同关键词的分值可以相同或不同。与消息内容匹配的正则表达式为一个以上时,接收客户端可以获取所有与消息内容匹配的正则表达式的分值。\n[0095] 需要说明的是,本步骤与步骤306的执行顺序没有先后之分,即接收客户端可以在使用预设的关键词列表,对接收到的通讯消息的消息内容进行匹配之前或之后,使用预设的正则表达式,对接收到的通讯消息的消息内容进行匹配。\n[0096] 步骤308,接收客户端根据与消息内容匹配的关键词和正则表达式的分值,获取该消息内容的匹配总分值。\n[0097] 接收客户端将所有与消息内容匹配的关键词的分值和正则表达式的分值相加,即可获取该消息内容的匹配总分值。\n[0098] 步骤309,接收客户端判断消息内容的匹配总分值是否大于或等于预设的阈值。\n[0099] 如果消息内容的匹配总分值大于或等于预设的阈值,则执行步骤310;如果消息内容的匹配总分值小于预设的阈值,则执行步骤311。\n[0100] 上述阈值可以设置为固定值,也可以根据通讯消息的长度动态设置,即不同长度的通讯消息对应不同的阈值。\n[0101] 步骤310,接收客户端识别接收到的通讯消息为垃圾消息。\n[0102] 如果消息内容的匹配总分值大于或等于预设的阈值,则接收客户端识别接收到的通讯消息为垃圾消息,并对该通讯消息进行丢弃处理。\n[0103] 步骤311,接收客户端识别接收到的通讯消息为正常消息。\n[0104] 如果消息内容的匹配总分值小于预设的阈值,则接收客户端识别接收到的通讯消息为正常消息,并按照该通讯消息进行相应的操作。\n[0105] 需要说明的是,本申请实施例可以根据实际需要对各个步骤顺序进行调整。上述使用预设的关键词列表和预设的正则表达式识别垃圾消息的步骤,也可以在使用发送方信息识别垃圾消息的步骤之前执行。当上述使用预设的关键词列表和预设的正则表达式识别垃圾消息的步骤,在使用发送方信息识别垃圾消息的步骤之前执行时,若通讯消息的消息内容与预设的关键词列表匹配或消息内容的匹配总分值大于或等于预设的阈值,则暂时识别该通讯消息为垃圾消息,然后再通过判断该通讯消息的发送方是否是可预期用户进行进一步确认。即,若该通讯消息的发送方不是可预期用户,则确认该通讯消息为垃圾消息,若该通讯消息的发送方是可预期用户,则更改该通讯消息为正常消息。作为本申请实施例的替换方案,若通讯消息的消息内容与预设的关键词列表匹配或消息内容的匹配总分值大于或等于预设的阈值,也可以直接识别该通讯消息为垃圾消息,并对该通讯消息作丢弃处理。\n[0106] 本申请包括以下优点,通过系统服务器判断通讯消息的发送方是否为接收方的可预期用户,并由接收客户端根据预设的关键词列表和正则表达式进行垃圾消息的识别,降低了对垃圾消息的漏判率和误判率,提高了识别垃圾消息的准确率,进而增强了信息过滤的效果。当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。\n[0107] 如图4所示,为本申请实施例四中的一种垃圾消息的识别方法流程图,包括以下步骤:\n[0108] 步骤401,客户端获取自身的可预期发送方信息。\n[0109] 客户端运行后,可以从本地或者系统服务器获取自身的可预期发送方信息。客户端的可预期发送方包括系统用户、客户端的好友用户和客户端主动联系过的非好友用户中的至少一项。\n[0110] 步骤402,客户端根据自身发送的通讯消息中的接收方信息,更新自身的可预期发送方信息。\n[0111] 客户端发送通讯消息时,可以根据步骤401获取的可预期发送方信息,确定该通讯消息的接收方的属性。如果该通讯消息的接收方不是该客户端的可预期发送方时,该客户端将该通讯消息的接收方信息添加到自身的可预期发送方信息中。\n[0112] 具体地,客户端可以将该通讯消息的接收方设置为自身主动联系过的非好友用户,并记录该通讯消息的接收方信息,该接收方信息包括:接收方名称、接收方ID、接收方地址和最新联系时间等内容。其中,最新联系时间为客户端向该接收方发送通讯消息的时间。\n[0113] 步骤403,客户端提取接收到的通讯消息中的发送方信息。\n[0114] 客户端接收到通讯消息后,可以提取该通讯消息中的发送方信息,以进行垃圾消息的识别。发送方信息可以包括发送方名称、发送方ID和发送方地址等内容。\n[0115] 步骤404,客户端根据提取的发送方信息,判断接收到的通讯消息的发送方是否为可预期发送方。\n[0116] 如果接收到的通讯消息的发送方是可预期发送方,则执行步骤405;如果接收到的通讯消息的发送方不是可预期发送方,则执行步骤406。\n[0117] 客户端可以将自身的好友用户信息和自身主动联系过的非好友用户信息,周期性地或事件触发性地上传到系统服务器。系统服务器也可以将上述从客户端接收到的信息,周期性地或事件触发性地向系统中的其他客户端公布,供其他客户端进行垃圾消息的识别。\n[0118] 客户端可以首先判断该通讯消息的发送方是否为该客户端的好友用户,如果该发送方是该客户端的好友用户,则判断该发送方为可预期发送方;如果该发送方不是该客户端的好友用户,则继续判断该发送方是否为系统用户。\n[0119] 如果该发送方是系统用户,则判断该发送方为可预期发送方;如果该发送方不是系统用户,则继续判断该发送方是否为该客户端主动联系过的非好友用户。\n[0120] 如果该发送方不是该客户端主动联系过的非好友用户,则判断该发送方不是可预期发送方;如果该发送方是该客户端主动联系过的非好友用户,则查询该客户端与该发送方的最新联系时间,判断该发送方是否为该客户端在设定时间内主动联系过的非好友用户,即该发送方与该客户端的最新联系时间与当前时间之间的时间间隔是否超过预设时间间隔Tmax。\n[0121] 如果该发送方与该客户端的最新联系时间与当前时间之间的时间间隔超过Tmax,则判断该发送方不是可预期发送方;如果该发送方与该客户端的最新联系时间与当前时间之间的时间间隔不超过Tmax,则判断该发送方是可预期发送方。\n[0122] 需要说明的是,本步骤可以根据实际需要对各个判断顺序进行调整。\n[0123] 步骤405,客户端识别接收到的通讯消息为正常消息。\n[0124] 如果接收到的通讯消息的发送方是可预期发送方,客户端识别该通讯消息为正常消息,并按照该通讯消息进行相应的操作。\n[0125] 步骤406,客户端判断接收到的通讯消息的消息内容是否与预设的关键词列表匹配。\n[0126] 如果接收到的通讯消息的消息内容与预设的关键词列表匹配,则执行步骤407;\n如果接收到的通讯消息的消息内容与预设的关键词列表不匹配,则执行步骤408。\n[0127] 客户端对接收到的通讯消息提取消息内容,对照预设的关键词列表,查验该消息内容中是否包含关键词列表中相应的关键词,如果查验到该消息内容中包含相应的关键词,则该消息内容与预设的关键词列表匹配;如果查验到该消息内容中不包含相应的关键词,则该消息内容与预设的关键词列表不匹配。\n[0128] 客户端还可以对提取的消息内容进行格式转换,将消息内容转换为统一的格式,再进行查验,如全部转换为小写、半角格式,防止垃圾消息发送者对一些关键词进行大、小写或全角、半角变换来规避查验。\n[0129] 步骤407,客户端识别接收到的通讯消息为垃圾消息。\n[0130] 如果接收到的通讯消息的消息内容与预设的关键词列表匹配,即该消息内容中包含相应的关键词,则客户端识别接收到的通讯消息为垃圾消息,并对该接收到的通讯消息进行丢弃处理。\n[0131] 步骤408,客户端判断接收到的通讯消息的消息内容是否符合预设的垃圾消息识别选项。\n[0132] 如果接收到的通讯消息的消息内容符合预设的垃圾消息识别选项,则执行步骤405;如果接收到的通讯消息的消息内容不符合预设的垃圾消息识别选项,则执行步骤\n407。\n[0133] 如果接收到的通讯消息的消息内容与预设的关键词列表不匹配,即该消息内容中不包含相应的关键词,则客户端可以提取接收到的通讯消息的消息内容,并判断提取到的消息内容是否符合预设的垃圾消息识别选项。\n[0134] 需要说明的是,本申请实施例可以根据实际需要对各个步骤顺序进行调整。上述使用预设的垃圾消息识别选项识别垃圾消息的步骤,可以在使用预设的关键词列表识别垃圾消息的步骤之前执行;上述使用预设的关键词列表和预设的垃圾消息识别选项识别垃圾消息的步骤,也可以在使用发送方信息识别垃圾消息的步骤之前执行。\n[0135] 本申请包括以下优点,通过客户端根据发送的通讯消息中的接收方信息,更新自身的可预期发送方信息,并根据更新后的可预期发送方信息判断通讯消息的发送方是否为接收方的可预期用户,以及根据预设的关键词列表和垃圾消息识别选项进行垃圾消息的识别,降低了对垃圾消息的漏判率和误判率,提高了识别垃圾消息的准确率,进而增强了信息过滤的效果。当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。\n[0136] 需要说明的是,上述根据预设的关键词列表、正则表达式和垃圾消息识别选项进行垃圾消息的识别的流程,可以由系统服务器执行,也可以由系统服务器和客户端组合执行。上述根据预设的关键词列表、正则表达式和垃圾消息识别选项进行垃圾消息的识别的流程,与根据发送方信息进行垃圾消息的识别的流程之间,没有先后顺序之分。\n[0137] 如图5所示,为本申请实施例五中的一种垃圾消息的识别方法流程图,包括以下步骤:\n[0138] 步骤501,系统服务器设置黑名单列表和白名单列表。\n[0139] 系统服务器识别垃圾消息的过程中,可以将被识别出的垃圾消息的发送方信息添加到黑名单列表中,还可以将被识别出的正常消息的发送方信息添加到白名单列表中。系统服务器可以周期性地或事件触发性地向系统中的客户端公布黑名单列表和白名单列表,供客户端识别垃圾消息。黑名单列表中的发送方信息包括垃圾消息发送方的名称、ID和地址等内容,白名单列表中的发送方信息包括正常消息发送方的名称、ID和地址等内容。\n[0140] 客户端识别垃圾消息的过程中,也可以将被识别出的垃圾消息的发送方信息添加到黑名单列表中,将被识别出的正常消息的发送方信息添加到白名单列表中,并将上述黑名单列表和白名单列表周期性地或事件触发性地上传到系统服务器,供系统服务器识别垃圾消息。\n[0141] 需要说明的是,上述黑名单列表和白名单列表也可以单独设置,即系统服务器可以只设置黑名单列表或只设置白名单列表。系统服务器只设置黑名单列表时,可以只根据黑名单列表识别垃圾消息;系统服务器只设置白名单列表时,可以只根据白名单列表识别垃圾消息。\n[0142] 步骤502,系统服务器接收发送客户端发送的通讯消息。\n[0143] 通讯消息由发送客户端发送,经系统服务器转发到接收客户端,可以包括发送时间、发送方信息、接收方信息和消息内容等部分。\n[0144] 步骤503,系统服务器提取接收到的通讯消息中的发送方信息。\n[0145] 系统服务器接收到发送客户端发送的通讯消息后,可以不立即将该通讯消息转发到指定的客户端,而是提取该通讯消息中的发送方信息,以进行垃圾消息的识别。发送方信息可以包括发送方名称、发送方ID和发送方地址等内容。\n[0146] 步骤504,系统服务器判断提取到的发送方信息是否记录在白名单列表中。\n[0147] 如果提取到的发送方信息记录在白名单列表中,则执行步骤505;如果提取到的发送方信息没有记录在白名单列表中,则执行步骤506。\n[0148] 系统服务器提取接收到的通讯消息中的发送方信息后,可以从本地或客户端获取白名单列表,并判断提取到的发送方信息是否记录白名单列表中。\n[0149] 步骤505,系统服务器识别接收到的通讯消息为正常消息。\n[0150] 如果提取到的发送方信息记录在白名单列表中,则系统服务器判断接收到的通讯消息的发送方是可预期发送方,识别接收到的通讯消息为正常消息,并将该识别为正常消息的通讯消息转发给接收客户端。\n[0151] 接收客户端可以按照接收到的通讯消息进行相应的操作,不再对该通讯消息进行识别;也可以继续对该通讯消息进行识别。接收客户端的识别方法可以包括使用预设的关键词列表、正则表达式和垃圾消息识别选项中的至少一项进行识别。\n[0152] 步骤506,系统服务器判断提取到的发送方信息是否记录在黑名单列表中。\n[0153] 如果提取到的发送方信息记录在黑名单列表中,则执行步骤507;如果提取到的发送方信息没有记录在黑名单列表中,则执行步骤508。\n[0154] 系统服务器提取接收到的通讯消息中的发送方信息后,可以从本地或客户端获取黑名单列表,并判断提取到的发送方信息是否记录黑名单列表中。\n[0155] 步骤507,系统服务器识别接收到的通讯消息为垃圾消息。\n[0156] 如果提取到的发送方信息记录在黑名单列表中,则系统服务器识别接收到的通讯消息为垃圾消息,并将该识别为垃圾消息的通讯消息进行丢弃处理。\n[0157] 步骤508,系统服务器使用预设的关键词列表,对接收到的通讯消息的消息内容进行匹配,并获取与消息内容匹配的关键词的分值。\n[0158] 系统服务器对接收到的通讯消息提取消息内容,对照预设的关键词列表,查验该消息内容中是否包含关键词列表中相应的关键词,如果查验到该消息内容中包含相应的关键词,则判断该消息内容与预设的关键词列表匹配,并获取与该消息内容匹配的关键词的分值。与消息内容匹配的正则表达式为一个以上时,系统服务器可以获取所有与消息内容匹配的正则表达式的分值。\n[0159] 系统服务器还可以对提取的消息内容进行格式转换,将消息内容转换为统一的格式,再进行查验,如全部转换为小写、半角格式,防止垃圾消息发送者对一些关键词进行大、小写或全角、半角变换来规避查验。\n[0160] 步骤509,系统服务器使用预设的正则表达式,对接收到的通讯消息的消息内容进行匹配,并获取与消息内容匹配的正则表达式的分值。\n[0161] 系统服务器可以通过特定的正则表达式,判断接收到的通讯消息的消息内容中是否包含特定的关键特征,如果该消息内容中包含该关键特征,则该消息内容与该关键特征对应的正则表达式匹配。\n[0162] 正则表达式可以由用户个性化设定,也可以由系统服务器下发到各个客户端。每个正则表达式对应预设的分值,用于标示该正则表达式从消息内容中辨别的关键特征出现在垃圾消息中的可能性,不同关键词的分值可以相同或不同。与消息内容匹配的正则表达式为一个以上时,系统服务器可以获取所有与消息内容匹配的正则表达式的分值。\n[0163] 需要说明的是,本步骤与步骤508的执行顺序没有先后之分,即系统服务器可以在使用预设的关键词列表,对接收到的通讯消息的消息内容进行匹配之前或之后,使用预设的正则表达式,对接收到的通讯消息的消息内容进行匹配。\n[0164] 步骤510,系统服务器根据与消息内容匹配的关键词和正则表达式的分值,获取该消息内容的匹配总分值。\n[0165] 系统服务器将所有与消息内容匹配的关键词的分值和正则表达式的分值相加,即可获取该消息内容的匹配总分值。\n[0166] 步骤511,系统服务器判断消息内容的匹配总分值是否大于或等于预设的阈值。\n[0167] 如果消息内容的匹配总分值大于或等于预设的阈值,则执行步骤507;如果消息内容的匹配总分值小于预设的阈值,则执行步骤505。\n[0168] 上述阈值可以设置为固定值,也可以根据通讯消息的长度动态设置,即不同长度的通讯消息对应不同的阈值。\n[0169] 需要说明的是,本申请实施例可以根据实际需要对各个步骤顺序进行调整。上述使用预设的关键词列表和预设的正则表达式识别垃圾消息的步骤,也可以在使用黑名单列表和白名单列表识别垃圾消息的步骤之前执行。\n[0170] 本申请包括以下优点,由系统服务器根据设置的黑名单列表和白名单列表,以及预设的关键词列表和正则表达式进行垃圾消息的识别,降低了对垃圾消息的漏判率和误判率,提高了识别垃圾消息的准确率,进而增强了信息过滤的效果。当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。\n[0171] 如图6所示,为本申请实施例六中的一种垃圾消息的识别方法流程图,包括以下步骤:\n[0172] 步骤601,发送客户端判断待发送的通讯消息的消息内容是否与预设的关键词列表匹配。\n[0173] 如果待发送的通讯消息的消息内容与预设的关键词列表匹配,则执行步骤602;\n如果待发送的通讯消息的消息内容与预设的关键词列表不匹配,则执行步骤603。\n[0174] 发送客户端对待发送的通讯消息提取消息内容,对照预设的关键词列表,查验该消息内容中是否包含关键词列表中相应的关键词,如果查验到该消息内容中包含相应的关键词,则该消息内容与预设的关键词列表匹配;如果查验到该消息内容中不包含相应的关键词,则该消息内容与预设的关键词列表不匹配。\n[0175] 发送客户端还可以对提取的消息内容进行格式转换,将消息内容转换为统一的格式,再进行查验,如全部转换为小写、半角格式,防止垃圾消息发送者对一些关键词进行大、小写或全角、半角变换来规避查验。\n[0176] 步骤602,发送客户端暂时识别待发送的通讯消息为垃圾消息。\n[0177] 如果待发送的通讯消息的消息内容与预设的关键词列表匹配,即该消息内容中包含相应的关键词,则发送客户端暂时识别待发送的通讯消息为垃圾消息,并将该通讯消息发送到系统服务器,由系统服务器通过判断该通讯消息的发送方是否是可预期用户进行进一步确认。\n[0178] 做为步骤602的替代方案,如果待发送的通讯消息的消息内容与预设的关键词列表匹配,即该消息内容中包含相应的关键词,发送客户端可以直接识别待发送的通讯消息为垃圾消息,并对该通讯消息进行丢弃处理。\n[0179] 步骤603,发送客户端将待发送的通讯消息发送给系统服务器。\n[0180] 如果待发送的通讯消息的消息内容与预设的关键词列表不匹配,即该消息内容中不包含相应的关键词,则发送客户端将该待发送的通讯消息发送给系统服务器,由系统服务器继续判断该通讯消息是否为垃圾消息。\n[0181] 步骤604,系统服务器判断接收到的通讯消息的消息内容是否符合预设的垃圾消息识别选项。\n[0182] 如果接收到的通讯消息的消息内容符合预设的垃圾消息识别选项,则执行步骤606;如果接收到的通讯消息的消息内容不符合预设的垃圾消息识别选项,则执行步骤\n605。\n[0183] 系统服务器接收到发送客户端发送的通讯消息后,可以提取接收到的通讯消息的消息内容,并判断提取到的消息内容是否符合预设的垃圾消息识别选项。\n[0184] 步骤605,系统服务器暂时识别接收到的通讯消息为垃圾消息。\n[0185] 如果接收到的通讯消息的消息内容不符合预设的垃圾消息识别选项,则系统服务器暂时识别接收到的通讯消息为垃圾消息,并将该通讯消息发送到接收客户端,由接收客户端通过判断该通讯消息的发送方是否是可预期用户进行进一步确认。\n[0186] 做为步骤605的替代方案,如果接收到的通讯消息的消息内容不符合预设的垃圾消息识别选项,系统服务器可以直接识别接收到的通讯消息为垃圾消息,并对该垃圾消息做丢弃处理。\n[0187] 步骤606,系统服务器将接收到的通讯消息转发给接收客户端。\n[0188] 如果接收到的通讯消息的消息内容符合预设的垃圾消息识别选项,则系统服务器将该接收到的通讯消息转发给接收客户端,由接收客户端继续识别该通讯消息是否为垃圾消息。\n[0189] 步骤607,接收客户端提取接收到的通讯消息中的发送方信息。\n[0190] 接收客户端接收到系统服务器转发的通讯消息后,可以提取该通讯消息中的发送方信息,以进行垃圾消息的识别。发送方信息可以包括发送方名称、发送方ID和发送方地址等内容。\n[0191] 步骤608,接收客户端根据提取的发送方信息,判断接收到的通讯消息的发送方是否为可预期发送方。\n[0192] 如果接收到的通讯消息的发送方是可预期发送方,则执行步骤609;如果接收到的通讯消息的发送方不是可预期发送方,则执行步骤610。\n[0193] 系统中的客户端也可以将自身的好友用户信息和自身主动联系过的非好友用户信息,周期性地或事件触发性地上传到系统服务器。系统服务器也可以将上述从客户端接收到的信息,周期性地或事件触发性地向系统中的其他客户端公布,供其他客户端进行垃圾消息的识别。\n[0194] 步骤609,接收客户端识别接收到的通讯消息为正常消息。\n[0195] 如果通讯消息的发送方是可预期发送方,接收客户端识别该通讯消息为正常消息,并按照该通讯消息进行相应的操作。\n[0196] 步骤610,接收客户端识别接收到的通讯消息为垃圾消息。\n[0197] 如果通讯消息的发送方不是可预期发送方,则接收客户端识别该通讯消息为垃圾消息,并对该通讯消息进行丢弃处理。\n[0198] 需要说明的是,本申请实施例可以根据实际需要对各个步骤顺序进行调整。上述使用预设的垃圾消息识别选项识别垃圾消息的步骤,可以在使用预设的关键词列表识别垃圾消息的步骤之前执行。\n[0199] 本申请包括以下优点,先后由发送客户端通过判断通讯消息的发送方是否为接收方的可预期用户、由系统服务器根据预设的关键词列表,以及由接收客户端根据垃圾消息识别选项进行垃圾消息的识别,降低了对垃圾消息的漏判率和误判率,提高了识别垃圾消息的准确率,进而增强了信息过滤的效果。当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。\n[0200] 如图7所示,为本申请实施例七中的一种通讯设备结构示意图,该通讯设备700,包括:\n[0201] 提取模块701,用于提取通讯消息中的发送方信息。\n[0202] 本申请实施例中的通讯消息可以为IM系统中的即时消息、SMS消息、MMS消息或E-mail等,通讯消息本身可以包括发送时间、发送方信息、接收方信息和消息内容等部分。\n通讯消息由发送客户端发送,经系统服务器转发到接收客户端。其中,接收方信息包括接收方名称、接收方ID和接收方地址等内容,发送方信息可以包括发送方名称、发送方ID和发送方地址等内容。\n[0203] 本申请实施例中的通讯设备为发送客户端时,提取模块701提取待发送的通讯消息中的发送方信息;通讯设备为系统服务器或接收客户端时,提取模块701提取接收到的通讯消息中的发送方信息。\n[0204] 上述提取模块701是以上所述通讯设备700中负责提取通讯消息中的发送方信息的部分,可以是软件、硬件或两者的结合。\n[0205] 第一判断模块702,用于根据提取模块701提取的发送方信息,判断通讯消息的发送方是否为可预期发送方。\n[0206] 可预期发送方包括以下用户中的至少一种:系统用户、通讯消息的接收方的好友用户和通讯消息的接收方主动联系过的非好友用户。\n[0207] 第一判断模块702,还用于获取系统用户名单、通信消息的接收方的好友用户名单和通讯消息接收方主动联系过的非好友用户名单;如果通讯消息的发送方信息记录在系统用户名单、通信消息的接收方的好友用户名单和通讯消息接收方主动联系过的非好友用户名单的任一项中,判断通讯消息的发送方是可预期发送方。\n[0208] 其中,系统用户为发送通讯消息的第三方用户,可以包括通讯服务提供商。系统用户向接收方发送的消息通常以通知或提醒的形式出现,接收方可以将系统用户作为可预期发送方。\n[0209] 通讯消息的接收方的好友用户在向接收方发送通讯消息之前,与接收方建立好友关系,并通过接收方的身份认证,接收方可以将自身的好友用户作为可预期发送方。\n[0210] 通讯消息的接收方主动联系过的非好友用户在向接收方发送通讯消息之前,未与接收方建立好友关系,但曾接收到该接收方发送的消息。系统中的客户端也可以周期性地或事件触发性地将自身的好友用户信息和自身主动联系过的非好友用户信息上传到系统服务器,供系统服务器识别垃圾消息。\n[0211] 上述第一判断模块702是以上所述通讯设备700中负责根据提取的发送方信息,判断通讯消息的发送方是否为可预期发送方的部分,可以是软件、硬件或两者的结合。\n[0212] 识别模块703,用于在第一判断模块702判断通讯消息的发送方不是可预期发送方时,识别该通讯消息为垃圾消息,或继续对该通讯消息进行识别。\n[0213] 识别模块703可以在通讯消息的发送方不是可预期发送方时,识别该通讯消息为垃圾消息,对该通讯消息进行丢弃处理,并将该通讯消息的发送方加入到黑名单;也可以继续对该通讯消息进行识别,识别方法可以包括使用预设的关键词列表、预设的正则表达式和预设的垃圾消息识别选项中的至少一项进行识别。\n[0214] 上述识别模块703是以上所述通讯设备700中负责在通讯消息的发送方不是可预期发送方时,识别该通讯消息为垃圾消息,或继续对该通讯消息进行识别的部分,可以是软件、硬件或两者的结合。\n[0215] 上述通讯设备700,还包括:\n[0216] 更新模块704,用于根据发送的通讯消息中的接收方信息,更新可预期发送方信息。\n[0217] 更新模块704可以确定发送的通讯消息的接收方的属性,并在该通讯消息的接收方不是可预期发送方时,将该通讯消息的接收方信息添加到可预期发送方信息中。\n[0218] 具体地,更新模块704可以将该通讯消息的接收方设置为主动联系过的非好友用户,并记录该通讯消息的接收方信息,该接收方信息包括:接收方名称、接收方ID、接收方地址和最新联系时间等内容。其中,最新联系时间为客户端向该接收方发送通讯消息的时间。\n[0219] 上述更新模块704是以上所述通讯设备700中负责根据发送的通讯消息中的接收方信息,更新可预期发送方信息的部分,可以是软件、硬件或两者的结合。\n[0220] 设置模块705,用于设置黑名单列表和/或白名单列表,该黑名单列表中包括被识别出的垃圾消息的发送方信息,该白名单列表中包括被识别出的正常消息的发送方信息。\n[0221] 设置模块705可以将被识别出的垃圾消息的发送方信息添加到黑名单列表中,还可以将被识别出的正常消息的发送方信息添加到白名单列表中。黑名单列表中的发送方信息包括垃圾消息发送方的名称、ID和地址等内容,白名单列表中的发送方信息包括正常消息发送方的名称、ID和地址等内容。\n[0222] 上述设置模块705是以上所述通讯设备700中负责设置黑名单列表和/或白名单列表的部分,可以是软件、硬件或两者的结合。\n[0223] 上述第一判断模块702,还用于在通讯消息的发送方信息记录在黑名单列表中时,判断通讯消息的发送方不是可预期发送方;和/或\n[0224] 在通讯消息的发送方信息记录在白名单列表中时,判断通讯消息的发送方是可预期发送方。\n[0225] 上述通讯设备700,还包括:\n[0226] 第二判断模块706,用于判断通讯消息的消息内容是否与预设的关键词列表匹配。\n[0227] 关键词列表可以包含各种用于宣传广告信息、恶意传播流言信息和不文明信息的垃圾消息中常用的关键词,例如,“服装大甩卖”、“转让门面店”、“中奖”、“请汇款”等用词,还可以包含一些常用的英文广告词、英文不文明用语等。关键词列表可以由用户个性化设定,也可以由系统服务器下发到各个客户端。\n[0228] 第二判断模块706将通讯消息中的消息内容,对照预设的关键词列表,查验该消息内容中是否包含关键词列表中相应的关键词,如果查验到该消息内容中包含相应的关键词,则判断该消息内容与预设的关键词列表匹配;如果查验到该消息内容中不包含相应的关键词,则判断该消息内容与预设的关键词列表不匹配。\n[0229] 第二判断模块706还可以对提取的消息内容进行格式转换,将消息内容转换为统一的格式,再进行查验,如全部转换为小写、半角格式,防止垃圾消息发送者对一些关键词进行大、小写或全角、半角变换来规避查验。\n[0230] 上述第二判断模块706是以上所述通讯设备700中负责判断通讯消息的消息内容是否与预设的关键词列表匹配的部分,可以是软件、硬件或两者的结合。\n[0231] 上述识别模块703,还用于在第二判断模块706判断通讯消息的消息内容与预设的关键词列表匹配时,识别该通讯消息为垃圾消息。\n[0232] 上述通讯设备700,还包括:\n[0233] 第三判断模块707,用于判断通讯消息的消息内容是否符合预设的垃圾消息识别选项。\n[0234] 预设的垃圾消息识别选项可以包括以下内容中的至少一项:a、不允许出现电话号码;b、不允许出现网络链接;c、不允许出现IM号码;d、不允许出现图片。用户可以根据自身的需求,个性化设定上述垃圾消息识别选项。\n[0235] 上述第三判断模块707是以上所述通讯设备700中负责判断通讯消息的消息内容是否符合预设的垃圾消息识别选项的部分,可以是软件、硬件或两者的结合。\n[0236] 上述识别模块703,还用于在第三判断模块707判断通讯消息的消息内容不符合预设的垃圾消息识别选项时,识别该通讯消息为垃圾消息。\n[0237] 上述通讯设备700,还包括:\n[0238] 第一匹配模块708,用于使用预设的关键词列表,对通讯消息的消息内容进行匹配,获取与该消息内容匹配的关键词的分值。\n[0239] 关键词列表用于判断通讯消息中是否包含垃圾消息的特征词语,可以由用户个性化设定,也可以由系统服务器下发到各个客户端。每个关键词对应预设的分值,用于标示该关键词出现在垃圾消息中的可能性,不同关键词的分值可以相同或不同。\n[0240] 上述第一匹配模块708是以上所述通讯设备700中负责使用预设的关键词列表,对通讯消息的消息内容进行匹配,获取与该消息内容匹配的关键词的分值的部分,可以是软件、硬件或两者的结合。\n[0241] 第二匹配模块709,用于使用预设的正则表达式,对通讯消息的消息内容进行匹配,获取与该消息内容匹配的正则表达式的分值。\n[0242] 正则表达式用于从消息内容中辨别某些关键特征,比如电话号码、网络链接或IM号码等。不同的正则表达式对应不同的关键特征,第二匹配模块709可以通过特定的正则表达式,判断接收到的通讯消息的消息内容中是否包含特定的关键特征,如果该消息内容中包含该关键特征,则该消息内容与该关键特征对应的正则表达式匹配。\n[0243] 正则表达式可以由用户个性化设定,也可以由系统服务器下发到各个客户端。每个正则表达式对应预设的分值,用于标示该正则表达式从消息内容中辨别的关键特征出现在垃圾消息中的可能性,不同关键词的分值可以相同或不同。与消息内容匹配的正则表达式为一个以上时,第二匹配模块709可以获取所有与消息内容匹配的正则表达式的分值。\n[0244] 上述第二匹配模块709是以上所述通讯设备700中负责使用预设的正则表达式,对通讯消息的消息内容进行匹配,获取与该消息内容匹配的正则表达式的分值的部分,可以是软件、硬件或两者的结合。\n[0245] 获取模块710,用于根据第一匹配模块708和第二匹配模块709获取的与消息内容匹配的关键词和正则表达式的分值,获取该消息内容的匹配总分值。\n[0246] 获取模块710将所有与消息内容匹配的关键词的分值和正则表达式的分值相加,即可获取该消息内容的匹配总分值。\n[0247] 上述获取模块710是以上所述通讯设备700中负责根据与消息内容匹配的关键词和正则表达式的分值,获取该消息内容的匹配总分值的部分,可以是软件、硬件或两者的结合。\n[0248] 第四判断模块711,用于判断获取模块710获取的消息内容的匹配总分值是否大于或等于预设的阈值。\n[0249] 上述阈值可以设置为固定值,也可以根据通讯消息的长度动态设置,即不同长度的通讯消息对应不同的阈值。\n[0250] 上述第四判断模块711是以上所述通讯设备700中负责判断消息内容的匹配总分值是否大于或等于预设的阈值的部分,可以是软件、硬件或两者的结合。\n[0251] 上述识别模块703,还用于在第四判断模块711判断消息内容的匹配总分值大于或等于预设的阈值时,识别该通讯消息为垃圾消息。\n[0252] 上述模块可以分布于一个装置,也可以分布于多个装置。上述模块可以合并为一个模块,也可以进一步拆分成多个子模块。\n[0253] 本申请包括以下优点,通过判断通讯消息的发送方是否为可预期用户,进行垃圾消息的识别,降低了对垃圾消息的漏判率和误判率,提高了识别垃圾消息的准确率,进而增强了信息过滤的效果。当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。\n[0254] 如图8所示,为本申请实施例八中的一种通讯系统结构示意图,包括:\n[0255] 第一通讯设备810,用于提取通讯消息中的发送方信息,根据提取的发送方信息,判断通讯消息的发送方是否为可预期发送方,在该通讯消息的发送方不是可预期发送方时,将该通讯消息标记为待识别消息,通过网络向第二通讯设备820转发标记后的通讯消息。\n[0256] 通讯消息中的发送方信息可以包括发送方名称、发送方ID和发送方地址等内容,可预期发送方包括以下用户中的至少一种:系统用户、通讯消息的接收方的好友用户和通讯消息的接收方主动联系过的非好友用户。\n[0257] 第二通讯设备820,用于根据以下内容中的至少一项,对接收到的来自第一通讯设备810的通讯消息进行识别:\n[0258] 预设的关键词列表、预设的正则表达式和预设的垃圾消息识别选项。\n[0259] 关键词列表可以包含各种用于宣传广告信息、恶意传播流言信息和不文明信息的垃圾消息中常用的关键词,可以由用户个性化设定,也可以由系统服务器下发到各个客户端。\n[0260] 正则表达式用于从消息内容中辨别某些关键特征,比如电话号码、网络链接或IM号码等。不同的正则表达式对应不同的关键特征,可以通过特定的正则表达式,判断接收到的通讯消息的消息内容中是否包含特定的关键特征,如果该消息内容中包含该关键特征,则该消息内容与该关键特征对应的正则表达式匹配。正则表达式可以由用户个性化设定,也可以由系统服务器下发到各个客户端。每个正则表达式对应预设的分值,用于标示该正则表达式从消息内容中辨别的关键特征出现在垃圾消息中的可能性,不同关键词的分值可以相同或不同。与消息内容匹配的正则表达式为一个以上时,接收客户端可以获取所有与消息内容匹配的正则表达式的分值。\n[0261] 预设的垃圾消息识别选项可以包括以下内容中的至少一项:a、不允许出现电话号码;b、不允许出现网络链接;c、不允许出现IM号码;d、不允许出现图片。用户可以根据自身的需求,个性化设定上述垃圾消息识别选项。\n[0262] 上述第一通讯设备810,还用于在通讯消息的发送方是可预期发送方时,将该通讯消息标记为正常消息,通过网络向该第二通讯设备转发标记后的通讯消息。\n[0263] 上述第一通讯设备810、第二通讯设备820可以分别为发送客户端和系统服务器,也可以分别为系统服务器和接收客户端。\n[0264] 上述第二通讯设备820,还用于将识别后的通讯消息标记为待识别消息,通过网络向第三通讯设备830转发标记后的通讯消息。\n[0265] 上述通讯系统,还包括:\n[0266] 第三通讯设备830,用于对接收到的来自第二通讯设备820的通讯消息采用预设的关键词列表、预设的正则表达式和预设的垃圾消息识别选项中的至少一种进行识别。\n[0267] 上述第一通讯设备810、第二通讯设备820和第三通讯设备830,可以分别为发送客户端、系统服务器和接收客户端。\n[0268] 本申请包括以下优点,通过判断通讯消息的发送方是否为可预期用户,进行垃圾消息的识别,降低了对垃圾消息的漏判率和误判率,提高了识别垃圾消息的准确率,进而增强了信息过滤的效果。当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。\n[0269] 为了描述的方便,以上所述通讯设备的各部分以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件或硬件中实现。\n[0270] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。\n[0271] 本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本申请所必须的。\n[0272] 本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。\n[0273] 上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。\n[0274] 以上公开的仅为本申请的几个具体实施例,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
法律信息
- 2012-09-19
- 2009-11-11
- 2009-09-16
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2008-07-16
|
2008-01-25
| | |
2
| |
2007-07-25
|
2007-01-16
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |