著录项信息
专利名称 | 基于特征相似度的垃圾短信拦截方法 |
申请号 | CN200910180002.2 | 申请日期 | 2009-10-21 |
法律状态 | 暂无 | 申报国家 | 中国 |
公开/公告日 | 2011-05-04 | 公开/公告号 | CN102045652A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | H04W4/12 | IPC分类号 | H;0;4;W;4;/;1;2;;;H;0;4;W;8;8;/;1;8查看分类表>
|
申请人 | 深圳市彩讯科技有限公司 | 申请人地址 | 广东省深圳市南山区粤海街道高新区社区科苑南路3176号彩讯科技大厦三十一层
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 彩讯科技股份有限公司 | 当前权利人 | 彩讯科技股份有限公司 |
发明人 | 杨良志 |
代理机构 | 北京润平知识产权代理有限公司 | 代理人 | 周建秋 |
摘要
本发明提供了一种基于特征相似度的垃圾短信拦截方法,通过追踪短信内容中特定相似特征信息在一段时间内出现的概率实现了只能判断其是否为群发垃圾信息的垃圾短信拦截方法,且方法中囊括了对短信内容中出现通讯人联系方式(如电话号码、网址、银行卡号)和无联系方式两种过滤算法,通过首先对短信文本的特殊字符转换预处理后,进行通讯联系人内容及动态随机短信内容截取然后于数据库中进行相似度的比较及计数,对超过计数的对应内容短信会记录为垃圾短信,并将短信内容加入垃圾短信特征信息内容数据中,整个即实现了模糊匹配文本识别、又具有智能学习识别垃圾信息功能。
基于特征相似度的垃圾短信拦截方法\n【技术领域】\n[0001] 本发明涉及一种垃圾短信过滤方法,尤其是指一种基于特征相似度的垃圾短信拦截方法。\n【背景技术】\n[0002] 随着移动通讯技术的日益发达,手机应用的覆盖面已非常广泛。其中使用手机进行短信发送,已成为人们日常沟通联系的重要方式。为此部分不法商家也开始利用短信大肆散布广告短信、反动短信,近些年甚至出现了层出不穷的短信诈骗等严重扰乱社会安定和谐的垃圾短信,而随着时下短信形式除原有文字短信,还出现了彩信、手机电邮等多样化形式,垃圾短信的问题日趋严重。为了避免大量垃圾短信在系统中泛滥,降低公众所受干扰同时减少对移动运营商正常业务开展的影响,迫切需要开发一套相对独立的专门对待发送短信进行检验的应用服务。然而现有的垃圾短信过滤器在设计时,通过预先对流行垃圾短信样本进行分析后形成垃圾关键字后对短信内容进行筛选过滤,由于关键字均为预先设定,系统又缺乏自学习能力,故此类垃圾短信过滤器智能化较低,无法对变化多端的垃圾短信作出及时应对,垃圾短信很容易通过简单改变内容即绕过过滤器。\n【发明内容】\n[0003] 本发明的目的在于克服了上述缺陷,提供一种具有基于短信内容与垃圾短信内容的特征相似度完成垃圾短信判断并拥有自学习能力的基于特征相似度的垃圾短信拦截方法。\n[0004] 本发明的目的是这样实现的:一种基于特征相似度的垃圾短信拦截方法,其特征在于:它包括步骤\n[0005] A)、初始化系统,于系统内存中开辟空间用于一组存放短信动态截取内容的KEY键值;同时设立数据,\n[0006] 对应短信动态截取后保存在内存中KEY键值的长度k,动态截取起始位置p,[0007] 截取间隔字符s,短信内容长度t,\n[0008] 对应相似度判断有效时间m,\n[0009] 对应相似度判断次数计数器的最大次数n,\n[0010] 对应免过滤短信的白名单;\n[0011] 初始化设定上述k,s,m,n数据的值,并载入系统内存中;\n[0012] 将数据库中存放的垃圾短信特征信息内容载入内存中;\n[0013] B)、系统收到来自外部的短信内容验证请求后返回允许数据通讯信号后接收待处理短信并对其内容进行备份;\n[0014] C)、短信内容预处理,对短信中内容的字符进行转换成为标准字符格式;所述步骤C的短信内容字符转换包括转化全角字符、转换WORD文档支持特殊字符、大写中文数字转化成小写数字、大写字母转换成小写及类数字、字母符号转化为对应数字、字母。\n[0015] D)、短信内容长度判别,判断短信内容的长度是否达到预设长度值,若未小于预设长度值,略过余下步骤,直接完成本次垃圾短信判定,否则继续步骤;\n[0016] E)、短信内容判别,判断短信内容中是否含有通讯人联系方式内容,联系方式包括手机号码、联系方式、网址、银行卡号的内容,若是则将对应通讯人联系方式提出并存储于内存组中其中一个KEY键值中,转向步骤G,否则,无对应内容则继续;\n[0017] F)、短信内容动态截取,当短信中内容无步骤E所需对应内容时,首先获取原始短信内容长度t,根据公式p=t/(k+1)+t%k得出动态截取起始位置p的值,根据截取间隔字符s中设定的值规则间隔截取短信内容中的字符,当截取字符长度满足短信动态截取后保存在内存中KEY键值的长度k值后,将该段截取的短信内容进行编码并保存到内存组中其中一个KEY键值中;\n[0018] G)、比较该KEY键值数据和白名单数据是否相同,若存在相同则略过余下步骤,直接完成本次垃圾短信判定,否则继续;\n[0019] H)、比较该KEY键值数据和内存中存放的垃圾短信特征信息内容是否相同匹配,若存在相同继续,否则保留内存中该KEY键值的数据,同时重置有效时间m,完成本次垃圾短信判定;\n[0020] I)、相似度判断次数计数器累加一;\n[0021] J)、判断计数器值是否超限,判断计数器值是否超过预设最大次数n,若没有则略过余下步骤,直接完成本次垃圾短信判定,否则继续;\n[0022] K)、判定为垃圾短信,当计数器超限后,拥有该内容的短信被设定为垃圾短信,系统对短信内容进行备份并写入预存放垃圾短信特征信息内容的数据库中,系统等待下次外部短信内容验证请求。\n[0023] 相比于常见的垃圾短信过滤方法,本发明的有益效果在于提供了一种可根据短信内容相似特征信息在一段时间内出现的概率来判断是否为群发垃圾信息的垃圾短信拦截方法,且方法中囊括了对短信内容中出现通讯人联系方式(如电话号码、网址、银行卡号)和无联系方式两种过滤算法,通过首先对短信文本的特殊字符转换预处理后,进行通讯联系人内容及动态随机短信内容截取然后于数据库中进行相似度的比较及计数,对超过计数的对应内容短信会记录为垃圾短信,并将短信内容加入垃圾短信特征信息内容数据中,整个即实现了模糊匹配文本识别、又具有智能学习识别垃圾信息功能。\n【附图说明】\n[0024] 下面结合附图详述本发明的具体结构\n[0025] 图1为本发明的方法流程图\n【具体实施方式】\n[0026] 如图1所示,本发明涉及一种基于特征相似度的垃圾短信拦截方法,它包括步骤:\n[0027] A)、初始化系统,于系统内存中开辟一组空间用于存放短信动态截取内容的KEY键值组;同时设立数据,\n[0028] 对应短信动态截取后保存在内存中KEY键值的长度k,动态截取起始位置p,截取间隔字符s及短信内容长度t\n[0029] 对应相似度判断有效时间m,\n[0030] 对应相似度判断次数计数器的最大次数n,\n[0031] 对应免过滤短信的白名单;\n[0032] 初始化设定上述k,p,s,m,n数据的值,并载入系统内存中;\n[0033] 将数据库中存放的垃圾短信特征信息内容载入内存中;\n[0034] B)、系统收到来自外部的短信内容验证请求后返回允许数据通讯信号后接收待处理短信并对其内容进行备份;\n[0035] C)、短信内容预处理,对短信中内容的字符进行转换成为标准字符格式;\n[0036] 所述步骤C的短信内容字符转换包括转化全角字符——如0、5等;\n[0037] 转换WORD文档支持特殊字符——如①⑶⒏等;\n[0038] 大写中文数字转化成小写数字——壹、贰等;\n[0039] 字母符号转化为对应数字、字母——如l和1、q和9、z和2等。\n[0040] D)、短信内容长度判别,判断短信内容的长度是否达到预设长度值,若未小于预设长度值,略过余下步骤,直接完成本次垃圾短信判定,否则继续步骤;\n[0041] E)、短信内容判别,判断短信内容中是否含有通讯人联系方式内容,联系方式包括手机号码、联系方式、网址、银行卡号的内容,若是则将对应通讯人联系方式提出并存储于内存组中其中一个KEY键值中,转向步骤G,否则,无对应内容则继续;\n[0042] F)、短信内容动态截取,当短信中内容无步骤E所需对应内容时,首先获取原始短信内容长度t,根据公式p=t/(k+1)+t%k得出动态截取起始位置p的值,根据截取间隔字符s中设定的值规则间隔截取短信内容中的字符,当截取字符长度满足短信动态截取后保存在内存中KEY键值的长度k值后,将该段截取的短信内容进行编码并保存到内存组中其中一个KEY键值中;\n[0043] G)、比较该KEY键值数据和白名单数据是否相同,若存在相同则略过余下步骤,直接完成本次垃圾短信判定,否则继续;\n[0044] H)、比较该KEY键值数据和内存中存放的垃圾短信特征信息内容是否相同匹配,若存在相同继续,否则保留内存中该KEY键值的数据,同时重置有效时间m,完成本次垃圾短信判定;\n[0045] I)、相似度判断次数计数器累加一;\n[0046] J)、判断计数器值是否超限,判断计数器值是否超过预设最大次数n,若没有则略过余下步骤,直接完成本次垃圾短信判定,否则继续;\n[0047] K)、判定为垃圾短信,当计数器超限后,拥有该内容的短信被设定为垃圾短信,系统对短信内容进行备份并写入预存放垃圾短信特征信息内容的数据库中,系统等待下次外部短信内容验证请求。\n[0048] 综上所述,本发明提供了一种可根据短信内容相似特征信息在一段时间内出现的概率来判断是否为群发垃圾信息的垃圾短信拦截方法,且方法中囊括了对短信内容中出现通讯人联系方式(如电话号码、网址、银行卡号)和无联系方式两种过滤算法,通过首先对短信文本的特殊字符转换预处理后,进行通讯联系人内容及动态随机短信内容截取然后于数据库中进行相似度的比较及计数,对超过计数的对应内容短信会记录为垃圾短信,并将短信内容加入垃圾短信特征信息内容数据中,整个即实现了模糊匹配文本识别、又具有智能学习识别垃圾信息功能。
法律信息
- 2023-01-31
专利权的转移
登记生效日: 2023.01.13
专利权人由彩讯科技股份有限公司变更为广州彩讯数字技术有限公司
地址由518000 广东省深圳市南山区粤海街道高新区社区科苑南路3176号彩讯科技大厦三十一层变更为510630 广东省广州市天河区科韵路16号自编1栋1401房(本住所限办公)
- 2020-08-14
专利权人的姓名或者名称、地址的变更
专利权人由彩讯科技股份有限公司变更为彩讯科技股份有限公司
地址由518000 广东省深圳市南山区科技南十二路18号长虹科技大厦4楼01-11单元变更为518000 广东省深圳市南山区粤海街道高新区社区科苑南路3176号彩讯科技大厦三十一层
- 2018-08-24
专利权人的姓名或者名称、地址的变更
专利权人由彩讯科技股份有限公司变更为彩讯科技股份有限公司
地址由518000 广东省深圳南山区科技南十二路曙光大厦第十八层变更为518000 广东省深圳市南山区科技南十二路18号长虹科技大厦4楼01-11单元
- 2016-12-21
专利权人的姓名或者名称、地址的变更
专利权人由深圳市彩讯科技有限公司变更为彩讯科技股份有限公司
地址由518000 广东省深圳南山区科技南十二路曙光大厦第十八层变更为518000 广东省深圳南山区科技南十二路曙光大厦第十八层
- 2013-04-17
- 2011-06-15
实质审查的生效
IPC(主分类): H04W 4/12
专利申请号: 200910180002.2
申请日: 2009.10.21
- 2011-05-04
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2005-01-12
|
2004-04-12
| | |
2
| |
2009-01-21
|
2008-07-28
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |