一种垃圾短信的识别方法及装置

发明专利有效专利

申请号：
CN201410025942.5
IPC分类号：G06F17/30
申请日期：
2014-01-20
申请人：
中国科学院深圳先进技术研究院

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	一种垃圾短信的识别方法及装置
申请号	CN201410025942.5	申请日期	2014-01-20
法律状态	授权	申报国家	中国
公开/公告日	2015-07-22	公开/公告号	CN104794125A
优先权	暂无	优先权号	暂无
主分类号	G06F17/30 ? IPC结构图谱： G 物理 G0 仪器 G06 计算；推算；计数 G06F 电数字数据处理（基于特定计算模型的计算机系统入G06N） G06F17/00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法〔6〕 G06F17/30 信息检索；及其数据库结构〔6〕	IPC分类号	G;0;6;F;1;7;/;3;0查看分类表>
申请人	中国科学院深圳先进技术研究院	申请人地址	广东省深圳市南山区西丽大学城学苑大道1068号变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	中国科学院深圳先进技术研究院	当前权利人	中国科学院深圳先进技术研究院
发明人	李翔宇;张潇;冯圣中;谭光
代理机构	深圳中一专利商标事务所	代理人	张全文

摘要

本发明适用于信息技术领域，提供了一种垃圾短信的识别方法及装置，包括：对接收到的短信进行分词处理，得到N个分词词组，所述N为大于1的整数；根据所述短信的分词词组在预设的垃圾短信词库中的匹配结果，计算所述短信为垃圾短信的可能性指数；当所述短信的所述可能性指数大于预设阈值时，将所述短信识别为垃圾短信。在本发明中，将终端接收到的新短信进行分词处理，以将处理得到的分词词组在预设的垃圾短信词库中进行查找匹配，根据查找匹配的结果来识别该接收到的新短信是否为垃圾短信，由此实现了对垃圾短信的自动、智能识别，不再需要通过手动操作来进行垃圾短信识别，由此降低了对终端的资源消耗。

一种垃圾短信的识别方法及装置\n技术领域\n[0001] 本发明属于信息技术领域，尤其涉及一种垃圾短信的识别方法及装置。\n背景技术\n[0002] 随着手机用户的日益增多，短信已成为人们日常沟通的一种主要方式，简单、便捷地在人与人之间进行信息传递。然而，由于存在着用户信息泄露的现象，不少广告商、不法分子通过各种渠道获取到用户的通讯号码，向用户发送各种广告短信甚至诈骗短信，对用户造成骚扰。\n[0003] 目前，当手机接收到一条新的短信时，大多需要用户手动点击查看该短信的具体内容，才能确定出该短信是否为垃圾短信，并在确定该短信为垃圾短信之后，对该短信进行删除操作，随着垃圾短信的增多，上述垃圾短信的识别过程需要频繁反复地进行，严重影响了手机的功耗。\n发明内容\n[0004] 本发明实施例的目的在于提供一种垃圾短信的识别方法，旨在解决现有的垃圾短信识别方法对手机功耗影响大的问题。\n[0005] 本发明实施例是这样实现的，一种垃圾短信的识别方法，包括：\n[0006] 对接收到的短信进行分词处理，得到N个分词词组，所述N为大于1的整数；\n[0007] 根据所述短信的分词词组在预设的垃圾短信词库中的匹配结果，计算所述短信为垃圾短信的可能性指数；\n[0008] 当所述短信的所述可能性指数大于预设阈值时，将所述短信识别为垃圾短信。\n[0009] 本发明实施例的另一目的在于提供一种垃圾短信的识别装置，包括：\n[0010] 分词单元，用于对接收到的短信进行分词处理，得到N个分词词组，所述 N为大于1的整数；\n[0011] 计算单元，用于根据所述短信的分词词组在预设的垃圾短信词库中的匹配结果，计算所述短信为垃圾短信的可能性指数；\n[0012] 识别单元，用于当所述短信的所述可能性指数大于预设阈值时，将所述短信识别为垃圾短信。\n[0013] 在本发明实施例中，将终端接收到的新短信进行分词处理，以将处理得到的分词词组在预设的垃圾短信词库中进行查找匹配，根据查找匹配的结果来识别该接收到的新短信是否为垃圾短信，由此实现了对垃圾短信的自动、智能识别，不再需要通过手动操作来进行垃圾短信识别，由此降低了对终端的资源消耗。\n附图说明\n[0014] 图1是本发明实施例提供的垃圾短信的识别方法的实现流程图；\n[0015] 图2是本发明另一实施例提供的垃圾短信的识别方法的实现流程图；\n[0016] 图3是本发明实施例提供的垃圾短信的识别方法S102的具体实现流程图；\n[0017] 图4是本发明另一实施例提供的垃圾短信的识别方法的实现流程图；\n[0018] 图5是本发明实施例提供的垃圾短信的识别装置的结构框图。\n具体实施方式\n[0019] 为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。\n[0020] 在本发明实施例中，将终端接收到的新短信进行分词处理，以将处理得到的分词词组在预设的垃圾短信词库中进行查找匹配，根据查找匹配的结果来识别该接收到的新短信是否为垃圾短信，由此实现了对垃圾短信的自动、智能识别，不再需要通过手动操作来进行垃圾短信识别，由此降低了对终端的资源消耗。\n[0021] 图1示出了本发明实施例提供的垃圾短信的识别方法的实现流程，详述如下：\n[0022] 在S101中，对接收到的短信进行分词处理，得到N个分词词组，所述N 为大于1的整数。\n[0023] 在本实施例中，每当移动终端接收到一条新短信时，则首先对该短信进行分词处理，将该短信分解成若干个特定的词组，其中，词组长度由分词所采用的具体分词算法来确定，且尽量避免分解得到长度过长的、由过多词语组成的词组，以保证后续处理过程中对垃圾短信特征词查找匹配的精确度。\n[0024] 作为本发明的一个实施例，如图2所示，在S101之前，所述方法还包括：\n[0025] 在S201中，判断所述短信的发送号码是否存在于通讯录中。\n[0026] 在S202中，若所述短信的发送号码不存在于所述通讯录中，对接收到的短信进行分词处理。\n[0027] 当移动终端接收到一条新短信时，可以先对发送该短信的号码进行判断，判断发送该短信的号码是否存在于该终端的通讯录中。若发送该短信的号码存在于该终端的通讯录中，则表明发送该短信的是该终端用户的联系人，则该短信显然不会是垃圾短信，因此不对该短信进行后续的识别处理；若发送该短信的号码不存在于该终端的通讯录中，则该短信有可能是陌生号码发送的垃圾短信，则继续后续的识别处理过程，进一步判断该短信是否为垃圾短信。通过图 2实施例所示的预判断过程，可以相应地减少垃圾短信识别的后台计算量，省去一些不必要的识别过程，也在一定程度上提高了垃圾短信识别的效率和准确率。\n[0028] 在S102中，根据所述短信的分词词组在预设的垃圾短信词库中的匹配结果，计算所述短信为垃圾短信的可能性指数。\n[0029] 在本发明实施例中，预先在后台建立起垃圾短信词库，该垃圾短信词库中存储了垃圾短信最常用到的词组。具体地，可以通过收集并分析一定数量的垃圾短信，对这部分垃圾短信中出现的词组进行词频统计，对于统计出的词频高的部分词组，在进行副词、介词、连词、助词、叹词等虚词过滤之后，将具备垃圾短信特征的词组存储进垃圾短信词库，以作为判断移动终端接收到的短信是否为垃圾短信的重要依据。例如，将“的”、“更加”等虚词过滤之后，提取出“中奖”、“开盘”等经常在垃圾短信中出现的特征词组，存储进垃圾短信词库。\n[0030] 作为本发明的一个实施例，为了提高后续处理过程中对垃圾短信的识别效率，在建立垃圾短信词库的同时，根据所述预设的垃圾短信词库中的词组在垃圾短信中出现的词频，为每个所述词组赋予相应的权值。即，对垃圾短信词库中存储的词组均按照此次统计的词频高低赋予相应的权值，词频越高的词组所被赋予的权值越高，词频越低的词组所被赋予的权值越低。\n[0031] 对于对短信进行分词处理得到的若干个分词词组，分别将每一个分词词组在预设的垃圾短信词库中进行查找匹配，判断分词词组是否存在于预设的垃圾短信词库中，并通过位图法进行查找匹配结果标记。其中，所述通过位图法进行查找匹配结果标记的过程，具体可以为：若当前进行查找匹配的分词词组存在于预设的垃圾短信词库中，则为该分词词组赋予二进制编号“1”，否则为该分词词组赋予二进制编号“0”，在对所有的分词词组进行完查找匹配之后，依序生成一个二进制的序列。例如，一条短信经过分词处理得到了10个词组，且第2、3、4、9个词组存在于词库中，则在查找匹配之后，经过位图法得到的二进制序列为“0111000010”。\n[0032] 在本实施例中，根据短信的每个分词词组在预设的垃圾短信词库中的匹配情况，通过指定的算法计算该短信为垃圾短信的可能性指数，其中一种可能性指数计算方法可以如图3所示：\n[0033] 在S301中，根据每个所述分词词组在所述预设的垃圾短信词库中匹配到的权值，计算所述短信的权值平均值。\n[0034] 在本实施例中，若当前进行查找匹配的分词词组在预设的垃圾短信词库中匹配到了相同的词组，则将该词组在垃圾短信词库中被赋予的权值匹配给当前进行查找匹配的分词词组；对于在预设的垃圾短信词库中未匹配到相同词组的分词词组，则为其赋予权值0，以便于后续在计算可能性指数时，能够对所有分词词组进行统一处理。\n[0035] 当获取到短信中每个分词词组在预设的垃圾短信词库中匹配到的权值之后，则通过将该短信所匹配到的权值之和除以该短信的分词词组数量，由此得到该短信的权值平均值。\n[0036] 在S302中，获取在所述预设的垃圾短信词库中匹配到权值的所述分词词组的数量占所述短信中所有分词词组数量的比例。\n[0037] 在本实施例中，对于短信在预设的垃圾词库中匹配到权值的分词词组，即，经过S301之后被赋予的权值不为0的分词词组，统计其数量，并通过将这部分分词词组的数量除以该短信的所有分词词组数量，得到一个比例。\n[0038] 在S303中，根据所述短信的权值平均值与所述比例，计算所述短信为垃圾短信的可能性指数。\n[0039] 具体地，可以将S301中得到的权值平均值乘以S302中得到的比例，由此计算得到该短信为垃圾短信的可能性指数。容易想到的是，除了本实施例中提供的算法，还可以基于短信的权值平均值和比例，通过其他算法计算得到该短信的可能性指数，在此不一一举例说明。\n[0040] 在本实施例中，计算得到的可能性指数越大，则表示该短信为垃圾短信的可能性越高，而若计算得到的可能性指数越小，则表示该短信为垃圾短信的可能性越小。\n[0041] 在S103中，当所述短信的所述可能性指数大于预设阈值时，将所述短信识别为垃圾短信。\n[0042] 作为本发明的一个实施例，通过设定一个预设阈值，当计算得到的可能性指数大于该预设阈值时，系统后台可以直接将该短信识别为垃圾短信，从而进一步地对该短信进行屏蔽、拦截或者删除处理。\n[0043] 同时，系统后台也可以直接将计算得到的可能性指数显示出来，以由用户根据该短信的可能性指数进行自行判断，选择直接删除该短信，保留该短信，或者在阅读后删除该短信，由此也极大地提高了终端对短信的处理效率。\n[0044] 作为本发明的一个实施例，在终端的使用过程中，随着终端进行垃圾识别的短信数量的增多，系统后台也可以不断地通过机器学习，进一步地对预设的垃圾短信词库进行更新。如图4所示，所述方法还包括：\n[0045] 在S104中，根据被识别为垃圾短信的短信中的所述分词词组对所述预设的垃圾短信词库进行更新。\n[0046] 在本实施例中，对于被识别为垃圾短信的短信，一方面，可以将其中不存在于预设的垃圾短信词库中，且具备垃圾短信特征的词组添加进预设的垃圾短信词库，以逐渐完善垃圾短信词库，提高词库的词组覆盖率；另一方面，根据对预设的垃圾短信词库中的词组的添加情况，可以对每个词组对应的词频及与词频具备关联关系的权值进行相应调整，提高该词组对应的权值。\n[0047] 上述对预设的垃圾短信词库的更新过程均是基于后台设置的程序自动完成，整个更新过程均为机器学习过程，随着终端对进行垃圾短信识别的数量的增加，预设的垃圾短信词库中的词组更加具有全面性和代表性，更能反映出垃圾短信的特征，由此在后续的识别过程中，对垃圾短信识别的准确度也会越来越高。\n[0048] 在本发明实施例中，将终端接收到的新短信进行分词处理，以将处理得到的分词词组在预设的垃圾短信词库中进行查找匹配，根据查找匹配的结果来识别该接收到的新短信是否为垃圾短信，由此实现了对垃圾短信的自动、智能识别，不再需要通过手动操作来进行垃圾短信识别，由此降低了对终端的资源消耗。\n[0049] 图5示出了本发明实施例提供的垃圾短信的识别装置的结构框图，该装置可以位于手机、平板、掌上电脑等能够进行短信接收的终端设备中，用于运行本发明图1至图4实施例所述的垃圾短信的识别方法。为了便于说明，仅示出了与本实施例相关的部分。\n[0050] 参照图5，该装置包括：\n[0051] 分词单元51，对接收到的短信进行分词处理，得到N个分词词组，所述N 为大于1的整数。\n[0052] 计算单元52，根据所述短信的分词词组在预设的垃圾短信词库中的匹配结果，计算所述短信为垃圾短信的可能性指数。\n[0053] 识别单元53，当所述短信的所述可能性指数大于预设阈值时，将所述短信识别为垃圾短信。\n[0054] 可选地，所述分词单元51包括：\n[0055] 判断子单元，判断所述短信的发送号码是否存在于通讯录中。\n[0056] 分词子单元，当所述短信的发送号码不存在于所述通讯录中，对接收到的短信进行分词处理。\n[0057] 可选地，所述装置还包括：\n[0058] 赋值单元，根据所述预设的垃圾短信词库中的词组在垃圾短信中出现的词频，为每个所述词组赋予相应的权值。\n[0059] 可选地，所述计算单元52包括；\n[0060] 第一计算子单元，根据每个所述分词词组在所述预设的垃圾短信词库中匹配到的权值，计算所述短信的权值平均值。\n[0061] 获取子单元，获取在所述预设的垃圾短信词库中匹配到权值的所述分词词组的数量占所述短信中所有分词词组数量的比例。\n[0062] 第二计算子单元，根据所述短信的权值平均值与所述比例，计算所述短信为垃圾短信的可能性指数。\n[0063] 可选地，所述装置还包括：\n[0064] 更新单元，根据被识别为垃圾短信的短信中的所述分词词组对所述预设的垃圾短信词库进行更新。\n[0065] 在本发明实施例中，将终端接收到的新短信进行分词处理，以将处理得到的分词词组在预设的垃圾短信词库中进行查找匹配，根据查找匹配的结果来识别该接收到的新短信是否为垃圾短信，由此实现了对垃圾短信的自动、智能识别，不再需要通过手动操作来进行垃圾短信识别，由此降低了对终端的资源消耗。\n[0066] 以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
1	CN101155182A	2008-04-02	2006-09-30	一种基于网络的垃圾信息过滤方法和装置无效专利	阿里巴巴公司
2	CN102970402A	2013-03-13	2012-11-16	一种更新移动终端通讯录联系人信息的方法及装置有效专利	TCL集团股份有限公司

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供