著录项信息
专利名称 | 举报短信处理方法及处理系统 |
申请号 | CN201310435442.4 | 申请日期 | 2013-09-23 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2013-12-18 | 公开/公告号 | CN103458383A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | H04W4/14 | IPC分类号 | H;0;4;W;4;/;1;4;;;H;0;4;M;1;/;6;6查看分类表>
|
申请人 | 北京网秦天下科技有限公司 | 申请人地址 | 北京市东城区和平里东街11号院内四号楼
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 北京网秦天下科技有限公司 | 当前权利人 | 北京网秦天下科技有限公司 |
发明人 | 孟宪巍 |
代理机构 | 中科专利商标代理有限责任公司 | 代理人 | 唐文静 |
摘要
本发明提供了一种举报短信处理方法,所述举报短信包括被举报的短信内容和用户判断结果。所述方法包括:针对每个被举报的短信内容,确定垃圾短信过滤引擎对被举报的短信内容的判断结果,所述判断结果指示被举报的短信内容是正常内容还是垃圾内容;统计用户判断结果与引擎判断结果一致的第一举报用户数以及用户判断结果与引擎判断结果不一致的第二举报用户数;基于所述第一举报用户数和所述第二举报用户数,计算所述被举报的短信内容的贡献值。所述方法还包括:基于所计算的贡献值,对各个被举报的短信内容进行筛选。根据本发明的方法可以自动地从海量的举报短信中筛选出对于改进垃圾短信过滤策略有贡献的短信,极大地提高处理效率。
1.一种举报短信处理方法,所述举报短信包括被举报的短信内容和用户判断结果,所述方法包括:
针对每个被举报的短信内容,
确定垃圾短信过滤引擎对被举报的短信内容的判断结果,所述判断结果指示被举报的短信内容是正常内容还是垃圾内容;
统计用户判断结果与引擎判断结果一致的第一举报用户数以及用户判断结果与引擎判断结果不一致的第二举报用户数;
基于所述第一举报用户数和所述第二举报用户数,计算所述被举报的短信内容的贡献值;以及
基于所计算的贡献值,对各个被举报的短信内容进行筛选,
其中计算所述被举报的短信内容的贡献值按照下述公式执行:
CValue=-lg((Csame+α)/(Cdif+α))*Ctotal,
其中CValue表示贡献值,Csame表示用户判断结果与引擎判断结果一致的第一举报用户数,Cdif表示用户判断结果与引擎判断结果不一致的第二举报用户数,α是平滑因子,以及Ctotal表示总的举报用户数。
2.根据权利要求1所述的方法,其中所述统计用户判断结果与引擎判断结果一致的第一举报用户数以及用户判断结果与引擎判断结果不一致的第二举报用户数包括:
统计将被举报的短信内容举报为正常内容的用户数;以及
统计将被举报的短信内容举报为垃圾内容的用户数。
3.根据权利要求1所述的方法,其中基于所计算的贡献值对各个被举报的短信内容进行筛选包括:选择贡献值大于阈值的被举报的短信内容作为用于改进垃圾短信过滤引擎的举报样本。
4.根据权利要求1所述的方法,其中基于所计算的贡献值对各个被举报的短信内容进行筛选包括:基于所计算的贡献值,对各个被举报的短信内容进行排序。
5.一种举报短信处理系统,所述举报短信包括被举报的短信内容和用户判断结果,所述系统包括:
垃圾短信过滤引擎,配置为判断被举报的短信内容是正常内容还是垃圾内容;
统计单元,配置为:针对每个被举报的短信内容,统计用户判断结果与引擎判断结果一致的第一举报用户数以及用户判断结果与引擎判断结果不一致的第二举报用户数;
计算单元,配置为:基于所述第一举报用户数和所述第二举报用户数,计算被举报的短信内容的贡献值;以及
筛选单元,配置为:基于所计算的贡献值,对各个被举报的短信内容进行筛选,其中所述计算单元配置为按照下述公式计算贡献值:
CValue=-lg((Csame+α)/(Cdif+α))*Ctotal,
其中CValue表示贡献值,Csame表示用户判断结果与引擎判断结果一致的第一举报用户数,Cdif表示用户判断结果与引擎判断结果不一致的第二举报用户数,α是平滑因子,以及Ctotal表示总的举报用户数。
6.根据权利要求5所述的系统,其中所述统计单元进一步配置为:
统计将被举报的短信内容举报为正常内容的用户数;以及
统计将被举报的短信内容举报为垃圾内容的用户数。
7.根据权利要求5所述的系统,其中所述筛选单元进一步配置为:选择贡献值大于阈值的被举报的短信内容作为用于改进垃圾短信过滤引擎的举报样本。
8.根据权利要求5所述的系统,其中所述筛选单元进一步配置为:基于所计算的贡献值,对各个被举报的短信内容进行排序。
举报短信处理方法及处理系统\n技术领域\n[0001] 本发明涉及移动通信领域,更具体地,涉及用于改进垃圾短信过滤引擎的举报短信处理方法和处理系统。\n背景技术\n[0002] 近些年,随着移动电话的普及率越来越高,以及短信的成本越来越低,利用短信来实现营销、甚至实施诈骗的行为越来越多。这些正常用户不希望接收到的或与用户无关的大量的短信被称为垃圾短信。根据统计,约有35%的移动电话用户不同程度地受到过垃圾短信的骚扰。每个用户平均每月收到的垃圾短信约为8条。按照2013年3月底中国移动电话用户总数已达11.46亿的统计来保守估计,我国移动电话用户平均每天收到的垃圾短信总量将超过三亿条。垃圾短信已经成为一个严重的社会问题。\n[0003] 为了避免垃圾短信的骚扰,智能移动电话的用户通常选择安装具有垃圾短信过滤功能的应用来避免骚扰。目前,市面上具有垃圾短信过滤功能的主流应用能够过滤掉大部分的垃圾短信,但也会漏掉一些垃圾短信(漏报)或是错误地把一些用户认为的正常短信识别为垃圾短信并拦截(误报)。为了保证短信过滤引擎具有良好的过滤效果,应用厂商通常会采用手机客户端举报的方式来收集这些漏报短信和误报短信,然后可以对举报的这些短信进行标注和分析,进而优化或改进过滤策略,获得更好的过滤效果。然而举报短信的数目通常是海量级的,对所有的举报短信都进行标准和分析以用于改进过滤策略是不现实的、也是不必要的。\n[0004] 因此,需要一种有效的举报短信处理机制,其能够从海量的举报短信中筛选出有利于改进过滤策略的有限数目的举报短信,从而提高后续对举报短信的标注和分析效率。\n发明内容\n[0005] 为了实现该目的,本发明提供了一种举报短信处理方法和举报短信处理系统。本发明提出同时考虑举报短信的用户判断结果与短信过滤引擎的判断差异性以及用户关注度这两个因素来筛选举报短信。\n[0006] 根据本发明的一个方面,提供了一种举报短信处理方法。所述举报短信包括被举报的短信内容和用户判断结果。所述方法包括针对每个被举报的短信内容通过下述方式计算贡献值:确定垃圾短信过滤引擎对被举报的短信内容的判断结果,所述判断结果指示被举报的短信内容是正常内容还是垃圾内容;统计用户判断结果与引擎判断结果一致的第一举报用户数以及用户判断结果与引擎判断结果不一致的第二举报用户数;以及,基于所述第一举报用户数和所述第二举报用户数,计算所述被举报的短信内容的贡献值。所述方法还包括;基于所计算的贡献值,对各个被举报的短信内容进行筛选。\n[0007] 在本发明的一些实施例中,可以按照下述公式计算被举报的短信内容的贡献值:\n[0008] CValue=-lg((Csame+α)/(Cdif+α))*Ctotal,\n[0009] 其中CValue表示贡献值,Csame表示用户判断结果与引擎判断结果一致的第一举报用户数,Cdif表示用户判断结果与引擎判断结果不一致的第二举报用户数,α是平滑因子,以及Ctotal表示总的举报用户数。\n[0010] 在本发明的一些实施例中,可以通过下述方式统计用户判断结果与引擎判断结果一致的第一举报用户数Csame以及用户判断结果与引擎判断结果不一致的第二举报用户数Cdif:统计将被举报的短信内容举报为正常内容的用户数Cn;以及,统计将被举报的短信内容举报为垃圾内容的用户数Cspam,其中,如果引擎判断结果指示被举报的短信内容是正常内容,则Csame=Cn,Cdif=Cs;否则Csame=Cs,Cdif=Cn。\n[0011] 在本发明的一些实施例中,基于所计算的贡献值对各个被举报的短信内容进行筛选可以包括:选择贡献值大于阈值的被举报的短信内容作为用于改进垃圾短信过滤引擎的举报样本。\n[0012] 在本发明的一些实施例中,基于所计算的贡献值对各个被举报的短信内容进行筛选可以包括:基于所计算的贡献值,对各个被举报的短信内容进行排序。可选地,可以基于所计算的贡献值,仅对贡献值大于阈值的被举报的短信内容进行排序。\n[0013] 根据本发明的第二方面,提供了一种举报短信处理系统。所述举报短信包括被举报的短信内容和用户判断结果。所述系统包括垃圾短信过滤引擎,配置为判断被举报的短信内容是正常内容还是垃圾内容。所述系统还包括统计单元,配置为:针对每个被举报的短信内容,统计用户判断结果与引擎判断结果一致的第一举报用户数以及用户判断结果与引擎判断结果不一致的第二举报用户数。所述系统还包括计算单元,配置为:基于所述第一举报用户数和所述第二举报用户数,计算被举报的短信内容的贡献值。所述系统还包括筛选单元,配置为:基于所计算的贡献值,对各个被举报的短信内容进行筛选。\n[0014] 在本发明的一些实施例中,所述计算单元可以配置为按照下述公式计算贡献值:\n[0015] CValue=-lg((Csame+α)/(Cdif+α))*Ctotal,\n[0016] 其中CValue表示贡献值,Csame表示用户判断结果与引擎判断结果一致的第一举报用户数,Cdif表示用户判断结果与引擎判断结果不一致的第二举报用户数,α是平滑因子,以及Ctotal表示总的举报用户数。\n[0017] 在本发明的一些实施例中,所述统计单元可以进一步配置为:统计将被举报的短信内容举报为正常内容的用户数;统计将被举报的短信内容举报为垃圾内容的用户数。\n[0018] 在本发明的一些实施例中,所述筛选单元可以进一步配置为:选择贡献值大于阈值的被举报的短信内容作为用于改进垃圾短信过滤引擎的举报样本。\n[0019] 在本发明的一些实施例中,所述筛选单元可以进一步配置为:基于所计算的贡献值,对各个被举报的短信内容进行排序。可选地,可以基于所计算的贡献值,仅对贡献值大于阈值的被举报的短信内容进行排序。\n[0020] 根据本发明的举报短信处理方法和系统可以有效地在海量的举报短信中筛选出有限数目的有利于改进过滤策略的举报短信,从而提高后续对举报短信的标注和分析效率。\n附图说明\n[0021] 通过下面结合附图说明本发明的优选实施例,将使本发明的上述及其它目的、特征和优点更加清楚,其中:\n[0022] 图1示意性地示出了在其中可以使用本发明实施例的移动通信系统100的应用场景的示意图;\n[0023] 图2示意性地示出了根据本发明实施例的举报短信处理方法的流程图;以及[0024] 图3示意性示出了根据本发明实施例的举报短信处理系统的框图。\n[0025] 在本发明的所有附图中,相同或相似的结构均以相同或相似的附图标记进行标识。\n具体实施方式\n[0026] 下面参照附图对本发明的优选实施例进行详细说明,在描述过程中省略了对于本发明来说是不必要的细节和功能,以防止对本发明的理解造成混淆。\n[0027] 图1是示出了根据本发明的移动通信系统100的应用场景的示意图。如图1所示,移动通信系统100可以包括移动终端120和服务器110。作为示例,在图中示出了四个移动终端\n120-1、120-2、120-3和120-4。但是应该理解,系统100可以包括更多或更少的移动终端。移动终端120通过通信网络130与服务器110相连。通信网络130的示例可以包括但不限于:互联网、移动通信网络。\n[0028] 服务器110通常是由提供垃圾短信过滤引擎的应用厂商维护和管理的。应用产商可以通过服务器110收集用户举报的短信,并且对举报短信进行处理,以改进垃圾短信过滤引擎的过滤效果,减少误报和漏报。下文中将参考图2和图3对其进行详细描述。尽管图中仅示出一个服务器110,但是应该理解可以存在两个或更多的服务器110。还应该理解,服务器\n110可以是单独的物理实体,也可以分布在两个或更多个物理实体上。\n[0029] 移动终端120可以是能够发送和接收短信的任意移动终端。当用户发现垃圾短信过滤引擎漏报或误报了短信时,可以使用其移动终端120向应用产商进行举报该漏报或误报的短信。应该理解,本发明并不局限于所涉及的各个移动终端的具体通信协议,可以包括但不限于2G、3G、4G、5G无线通信技术,WCDMA、CDMA2000、TD-SCDMA无线技术等。不同的移动终端可以采用相同的通信协议,也可以采用不同的通信协议。本发明也不局限于移动终端的具体操作系统,可以包括但不限于Android、iOS、Windows Mobile、Symbian、Windows Phone、Blackberry OS等。不同的移动终端可以采用相同的操作系统,也可以采用不同的操作系统。\n[0030] 服务器110和移动终端120可以通过各种无线通信协议进行通信,包括2G、3G、4G、\n5G网络,WCDMA、CDMA2000、TD-SCDMA系统、无线局域网(WLAN),等等。\n[0031] 如前所述,为了改进垃圾短信过滤引擎的过滤效果,应用厂商通常会采用手机客户端举报的方式来收集漏报和误报的短信,然后对举报的这些短信进行标注和分析,以便优化或改进垃圾短信过滤引擎的过滤策略,获得更好的过滤效果。然而举报短信的数目通常是海量级的,对所有的举报短信都进行标准和分析是不现实的、也是不必要的。\n[0032] 发明人认识到,各个举报短信的重要程度是不同的,用户广泛关注同时又是当前过滤引擎无法解决的短信样本对于改进过滤引擎的贡献较大。根据本发明实施例的方案可以自动地从海量的举报短信中筛选出这些对于改进过滤引擎贡献度较大的短信样本。仅筛选出的短信样本被用于改进垃圾短信过滤引擎。于是,根据本发明的方法可以显著减少需要处理的举报短信的数目。从而,可以以较少的处理时间和成本来标注和分析这些“有用”的短信样本,提高处理效率。\n[0033] 下面结合图2和图3对本发明进行详细描述。\n[0034] 图2示意性地示出了根据本发明实施例的举报短信处理方法200的流程图。方法\n200可以由服务器110来执行。\n[0035] 实际应用中,应用厂商的服务器110可以将收集的举报短信存储在举报短信数据库中。根据本发明实施例的举报短信处理方法200可以开始于读取举报短信数据库中的举报短信。举报短信通常可以包括被举报的短信内容和用户判断结果。\n[0036] 在步骤S210中,由当前垃圾短信过滤引擎对被举报的短信内容(下文中也称为被举报短信)进行判断。得到的判断结果(下文中称为引擎判断结果)指示该被举报的短信内容是正常内容还是垃圾内容。\n[0037] 在步骤S220中,针对被举报的短信内容(或称被举报短信)进行统计,包括统计用户判断结果与引擎判断结果一致的第一举报用户数以及用户判断结果与引擎判断结果不一致的第二举报用户数。\n[0038] 在优选的实施例中,可以统计将被举报的短信内容举报为正常内容的用户数,并且统计将被举报的短信内容举报为垃圾内容的用户数。于是,当步骤S210中的引擎判断结果是正常内容时,统计将被举报的短信内容举报为正常内容的用户数对应于统计用户判断结果与引擎判断结果一致的第一举报用户数;而统计将被举报的短信内容举报为垃圾内容的用户数对应于统计用户判断结果与引擎判断结果不一致的第二举报用户数。另一方面,当步骤S210中的引擎判断结果是垃圾内容时,统计将被举报的短信内容举报为正常内容的用户数对应于统计用户判断结果与引擎判断结果不一致的第二举报用户数;而统计将被举报的短信内容举报为垃圾内容的用户数对应于统计用户判断结果与引擎判断结果一致的第一举报用户数。\n[0039] 然后,在步骤S230中,可以基于步骤S220中的统计结果,计算该被举报短信的贡献值。\n[0040] 如前所述,发明人已经认识到,用户广泛关注同时又是当前过滤引擎无法解决的短信样本对于改进过滤引擎的贡献较大。另外,对于同一内容的短信,不同的用户可能有不同的判断结果。对于一个具体的短信,当统计发现多数用户的判断结果与引擎判断结果不一致时,该短信样本是对于改进垃圾短信过滤引擎有贡献的短信样本。而且,对于该具体的短信,举报的用户数越多,受影响的用户越多,则它的贡献值应该越大。当统计发现多数用户的判断结果与引擎判断结果一致时,该短信样本对于改进垃圾短信过滤引擎没有贡献。\n[0041] 在本发明的优选实施例中,可以按照下述公式来计算被举报的短信内容的贡献值:\n[0042] CValue=-lg((Csame+α)/(Cdif+α))*Ctotal (1)\n[0043] 其中CValue表示贡献值,Csame表示用户判断结果与引擎判断结果一致的第一举报用户数,Cdif表示用户判断结果与引擎判断结果不一致的第二举报用户数,α是平滑因子,以及Ctotal表示总的举报用户数。在实际计算中,Ctotal可以是Csame和Cdif的和。平滑因子α是为了避免在Cdif为0时造成分母为0而添加的,其可以是任何正数。优选地,α的值可以取1。\n[0044] 应该理解,本发明不局限于上述贡献值的具体计算公式。本发明可以采用与Csame和Cdif或其等价物有关的其他公式来计算贡献值,只要该公式同时考虑用户与垃圾短信过滤引擎的判断差异性以及用户关注度这两个因素。\n[0045] 例如,作为替代,可以采用下述公式(2)来计算贡献值\n[0046] CValue=-lg((Csame+α)/(Cdif+α))*Cdif (2)\n[0047] 其中CValue、Csame、Cdif和α的含义与公式(1)中的相同。\n[0048] 然后,可以针对数据库中的不同内容的被举报短信,重复执行步骤S210到S230,直到计算出每个被举报短信的贡献值。\n[0049] 然后,在步骤S240中,可以基于所计算的贡献值,对各个被举报的短信进行筛选。\n例如,可以选择贡献值大于阈值的被举报的短信内容作为用于改进垃圾短信过滤引擎的举报样本。作为替代或补充,可以基于所计算的贡献值,对各个被举报的短信内容进行排序。\n于是,仅筛选出排名在前的预定数目(例如前100名)的被举报的短信内容。于是,根据本发明的方法可以显著减少需要后续标准和分析以改进垃圾短信过滤引擎的被举报短信的数目。\n[0050] 下面结合一个实际示例对本发明的举报短信处理方法200进行详细说明。\n[0051] 假设,在本示例中,在步骤S230中,采用下式来计算贡献值\n[0052] CValue=-lg((Csame+1)/(Cdif+1))*(Cn+Cs) (3)其中,Csame和Cdif分别表示用户判断与当前引擎判断是否一致的用户数,Cn表示将短信举报为正常的用户数,Cs表示将短信举报为垃圾的用户数。如果针对一个被举报短信,引擎判断结果是“正常”时,Csame=Cn,Cdif=Cs;否则Csame=Cs,Cdif=Cn。该公式(3)可以看作公式(1)在α=1时的变形。\n[0053] 下表中示出了根据公式(3)计算的不同的被举报短信的贡献值。\n[0054]\n[0055] 于是,在步骤S240中,可以容易地根据贡献值筛选出真正需要的被举报短信。例如可以选择贡献值大于0(即,阈值为0)的被举报的短信加入用于改进垃圾短信过滤引擎的待处理短信样本数据库。作为替代,例如,可以基于所计算的贡献值,选择贡献值大于0的前N个被举报短信加入该待处理短信样本数据库。\n[0056] 根据上表,可以看到:\n[0057] 可能被选出的短信1和2(贡献值为正数)都是多数用户判断与当前引擎判断不一致的短信,是真正的误报或漏报的短信。短信3的贡献值小于0,将被滤掉。这符合当前引擎已经对短信3给出正确判断的实际情况。\n[0058] 在实际应用中,由于每天都会收到用户举报的短信,因此方法200可以定期执行(例如,以周为单位)。于是方法200可以定期从举报短信数据库中筛选出有限数目的被举报短信样本加入用于改进垃圾短信过滤引擎的待处理短信样本数据库(简称为标准数据库)。\n而剩余的被举报短信和下一个周期中新举报的短信则会在下一次处理中进行筛选。如此往复,使得形成一个动态的良性循环。\n[0059] 图3示出了根据本发明实施例的举报短信处理系统300的框图。该举报短信处理系统300可以是图1中的服务器110的一个具体实现。如图3所示,系统300包括垃圾短信过滤引擎310、统计单元320、计算单元330、筛选单元340、以及存储单元350。\n[0060] 垃圾短信过滤引擎310可以判断被举报短信是正常内容还是垃圾内容。\n[0061] 统计单元320可以针对特定的被举报短信,统计用户判断结果与引擎判断结果一致的举报用户数以及用户判断结果与引擎判断结果不一致的举报用户数。\n[0062] 计算单元330可以基于统计单元320获取的统计结果计算被举报短信的贡献值。\n[0063] 筛选单元340可以基于所计算的贡献值,对各个被举报短信进行筛选。\n[0064] 系统300可以通过各个单元的协作来实现上述方法200。垃圾短信过滤引擎310、统计单元320、计算单元330以及筛选单元340可以分别实现在上述步骤S210、220、230和240中完成的操作,在此不再赘述。\n[0065] 存储单元350可以存储在举报短信处理方法中使用的各种数据。例如存储单元350可以存储所收集的举报短信(例如,存储为举报短信数据库)、筛选出的举报短信(例如,存储为上述标准数据库)、统计单元320获取的各种统计结果、计算单元计算出的贡献值、筛选阈值、排序结果等等。存储单元350可以由一个或多个存储器来实现,其可以位于单个物理设备上或者分布在不同的物理设备上。可以用本领域技术人员已知的各种存储技术来实现存储单元。本发明在这点上不受限制。存储单元350例如可以包括磁盘、磁光盘、光盘、或者半导体存储技术等等。\n[0066] 上文已经结合优选实施例对本发明进行了描述。本领域技术人员可以理解,上面示出的方法和设备仅是示例性的。本发明的方法并不局限于上面示出的步骤和顺序。本发明的移动终端和服务器可以包括比示出的部件更多或更少的部件。本领域技术人员根据所示实施例的教导可以进行许多变化和修改。\n[0067] 本发明的设备及其部件可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合实现。\n[0068] 本发明可以实现诸多优点。本发明提出了一种举报短信处理方法和举报短信处理系统。其能够自动地从海量的举报短信中筛选出对于改进垃圾短信过滤策略有贡献的短信,显著减少了需要后续处理的短信的数目,极大地提高了处理效率。根据本发明的筛选处理综合考虑了用户和当前过滤引擎的判断结果差异性以及用户关注度,能够有效筛选出真正有价值的短信样本,使得更多的用户受益。\n[0069] 本领域技术人员应该理解,尽管通过具体实施例描述了本发明,但是本发明的范围不限于这些具体实施例。本发明的范围由所附权利要求及其任何等同含义限定。
法律信息
- 2020-09-11
未缴年费专利权终止
IPC(主分类): H04W 4/14
专利号: ZL 201310435442.4
申请日: 2013.09.23
授权公告日: 2017.01.04
- 2017-01-04
- 2014-01-15
实质审查的生效
IPC(主分类): H04W 4/14
专利申请号: 201310435442.4
申请日: 2013.09.23
- 2013-12-18
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2011-06-08
|
2010-12-17
| | |
2
| | 暂无 |
2007-04-04
| | |
3
| |
2010-01-27
|
2008-07-22
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |