著录项信息
专利名称 | 一种电子邮件中号码的提取方法及其装置 |
申请号 | CN201310397191.5 | 申请日期 | 2013-09-04 |
法律状态 | 暂无 | 申报国家 | 中国 |
公开/公告日 | 2014-01-01 | 公开/公告号 | CN103490980A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | H04L12/58 | IPC分类号 | H;0;4;L;1;2;/;5;8;;;H;0;4;L;2;9;/;0;6查看分类表>
|
申请人 | 盈世信息科技(北京)有限公司 | 申请人地址 | 广东省广州市番禺区小谷围街大学城明志街1号信息枢纽楼5楼503房
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 论客科技(广州)有限公司 | 当前权利人 | 论客科技(广州)有限公司 |
发明人 | 陈颖棠;叶远鹏 |
代理机构 | 广州三环专利商标代理有限公司 | 代理人 | 颜希文 |
摘要
本发明实施例公开了一种电子邮件中号码的提取方法及其装置,其中,该方法包括:对所述电子邮件中的单个符号进行识别,并获得识别结果;对所述识别结果进行分类判定,获得判定结果;对所述判定结果进行转换,获得纯数字号码串。实施本发明实施例,可在电子邮件的主题或内容中识别出带分隔符的号码以及符号号码,并将混合号码转换为纯数字号码串,可以降低号码提取的难度,以及降低资源的消耗;以及方便电子邮件中反垃圾模块的分析以及规则的应用,以快速地识别出是否为垃圾电子邮件,给用户带来便利。
1.一种电子邮件中号码的提取方法,其特征在于,所述方法包括:
对所述电子邮件中的单个符号进行识别,并获得识别结果;其中,根据字符编码识别所述符号为单字节符号或者为双字节符号;
对所述识别结果进行分类判定,获得判定结果;其中,当判定所述符号为单字节符号时,根据字符编码判定是否为单字节纯数字,或者是否为单字节分隔符;当判定所述符号为双字节符号时,根据字符编码判定是否为双字节符号号码,或者是否为双字节分隔符;
对所述判定结果进行转换,获得纯数字号码串;其中,若判定为单字节纯数字,则直接记录该数字;若判定为双字节符号号码,则将所述双字节符号号码的编码减去预设的编码,得到对应的单字节纯数字的编码,以将所述双字节符号号码转换为所述对应的单字节纯数字,并记录该数字。
2.如权利要求1所述的电子邮件中号码的提取方法,其特征在于,所述方法还包括:对所述纯数字号码串进行检验记录。
3.一种电子邮件中号码的提取装置,其特征在于,所述装置包括:
识别模块,用于对所述电子邮件中的单个符号进行识别,并获得识别结果;其中,所述识别模块用于根据字符编码识别所述符号为单字节符号或者为双字节符号;
判定模块,用于对所述识别模块所获得的识别结果进行分类判定,获得判定结果;其中,所述判定模块还用于当判定所述符号为单字节符号时,根据字符编码判定是否为单字节纯数字,或者是否为单字节分隔符;以及用于当判定所述符号为双字节符号时,根据字符编码判定是否为双字节符号号码,或者是否为双字节分隔符;
转换模块,用于对所述判定模块所获得的判定结果进行转换,获得纯数字号码串;其中,所述转换模块用于若所述判定结果为单字节纯数字时,则直接记录该数字;以及用于若所述判定结果为双字节符号号码时,则将所述双字节符号号码的编码减去预设的编码,得到对应的单字节纯数字的编码,以将所述双字节符号号码转换为所述对应的单字节纯数字,并记录该数字。
4.如权利要求3所述的电子邮件中号码的提取装置,其特征在于,所述装置还包括:检验记录模块,用于对所述纯数字号码串进行检验记录。
一种电子邮件中号码的提取方法及其装置\n技术领域\n[0001] 本发明涉及电子邮件技术领域,特别是涉及一种电子邮件中号码的提取方法及其装置。\n背景技术\n[0002] 随着移动终端技术的不断发展,手机、掌上电脑、平板、笔记本等各种移动设备已经成为人们工作、生活中必不可缺的一部分,而电子邮件是人们办公、通信最常用的功能之一。在互联网用户的各种应用中,电子邮件是一种比较常用的基础应用,用户可以通过发送电子邮件向对方传送信息,十分便捷,但也同时产生了垃圾电子邮件的问题。\n[0003] 垃圾电子邮件是指未经用户(接收方)许可就强行发送到用户的电子邮箱中的任何电子邮件,垃圾电子邮件的内容包括推销广告、成人广告、赚钱信息,或者包含电脑病毒,以至接收方用户的电脑系统受到侵害。这些垃圾电子邮件给邮箱用户带来了困扰,影响到了邮箱用户的使用体验,因此各大邮件提供商都把提升电子邮件反垃圾系统效果作为提升邮箱用户体验的重要关注点。\n[0004] 现有技术存在一种通过提取号码的形式识别电子邮件是否为垃圾电子邮件,号码的提取主要在电子邮件主题以及电子邮件的内容中提取,主要用途是作为电子邮件的附加特征应用于反垃圾领域,如一些留有联系方式的垃圾邮件,可将所提取的号码跟存有垃圾号码的数据库中的数据进行对比,以识别电子邮件是否为垃圾电子邮件,现有提取号码的技术存在两种方式,一种是多数的号码提取都是直接寻找全是数字的号码串,另一种方式是使用正则表达式进行号码提取。\n[0005] 直接查找全是数字的号码提取的方法的适用性较窄,仅适用于连续数字串,无法识别带有分隔符的号码;而使用正则表达式进行号码识别只是识别并提取符合规则的串,由于本身具有强大的功能而导致编写和测试验证的难度较大,且比较消耗资源。上述两种方法所提取出的号码都是原始的字符串,不能转换成一般的纯数字串,不方便反垃圾模块的分析以及规则的应用。\n发明内容\n[0006] 本发明的目的在于克服现有技术的不足,本发明提供了一种电子邮件中号码的提取方法及其装置,可以降低号码提取的难度,以及降低资源的消耗。\n[0007] 为了解决上述问题,本发明提出了一种电子邮件中号码的提取方法,所述方法包括:\n[0008] 对所述电子邮件中的单个符号进行识别,并获得识别结果;\n[0009] 对所述识别结果进行分类判定,获得判定结果;\n[0010] 对所述判定结果进行转换,获得纯数字号码串。\n[0011] 优选地,所述对所述电子邮件中的单个符号进行识别,并获得识别结果的步骤包括:\n[0012] 根据字符编码识别所述符号为单字节符号或者为双字节符号。\n[0013] 优选地,所述对所述识别结果进行分类判定,获得判定结果的步骤包括:\n[0014] 当判定所述符号为单字节符号时,根据字符编码判定是否为单字节纯数字,或者是否为单字节分隔符;\n[0015] 当判定所述符号为双字节符号时,根据字符编码判定是否为双字节符号号码,或者是否为双字节分隔符。\n[0016] 优选地,所述对所述判定结果进行转换,获得纯数字号码串的步骤包括:\n[0017] 若判定为单字节纯数字,则直接记录该数字;\n[0018] 若判定为双字节字符,则转换为单字节字符,并转换为纯数字号码。\n[0019] 优选地,所述方法还包括:对所述纯数字号码串进行检验记录。\n[0020] 相应地,本发明还提供一种电子邮件中号码的提取装置,所述装置包括:\n[0021] 识别模块,用于对所述电子邮件中的单个符号进行识别,并获得识别结果;\n[0022] 判定模块,用于对所述识别模块所获得的识别结果进行分类判定,获得判定结果;\n[0023] 转换模块,用于对所述判定模块所获得的判定结果进行转换,获得纯数字号码串。\n[0024] 优选地,所述识别模块用于根据字符编码识别所述符号为单字节符号或者为双字节符号。\n[0025] 优选地,所述判定模块还用于当判定所述符号为单字节符号时,根据字符编码判定是否为单字节纯数字,或者是否为单字节分隔符;以及用于当判定所述符号为双字节符号时,根据字符编码判定是否为双字节符号号码,或者是否为双字节分隔符。\n[0026] 优选地,所述转换模块用于若所述判定结果为单字节纯数字时,则直接记录该数字;以及用于若所述判定结果为双字节字符时,则转换为单字节字符,并转换为纯数字号码。\n[0027] 优选地,所述装置还包括:检验记录模块,用于对所述纯数字号码串进行检验记录。\n[0028] 实施本发明实施例,可在电子邮件的主题或内容中识别出带分隔符的号码以及符号号码,并将混合号码转换为纯数字号码串,可以降低号码提取的难度,以及降低资源的消耗;以及方便电子邮件中反垃圾模块的分析以及规则的应用,以快速地识别出是否为垃圾电子邮件,给用户带来便利。\n附图说明\n[0029] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。\n[0030] 图1是本发明实施例的电子邮件中号码的提取方法的流程示意图;\n[0031] 图2是本发明实施例的电子邮件中号码的提取装置的结构组成示意图。\n具体实施方式\n[0032] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。\n[0033] 电子邮件系统中的反垃圾模块的主要作用是对电子邮件进行分析、进行特征记录及统计,并判定是否为垃圾电子邮件,而传统的反垃圾模块无法识别“400-235-335”和“400-235335”所代表的含义是相同的,都是指“400235335”,而系统只能判定两组号码是不同的东西。因此需要一个统一的号码表示方式,来让电子邮件系统可以识别,避免符号的差异性所带来的干扰。\n[0034] 图1是本发明实施例的电子邮件中号码的提取方法的流程示意图,如图1所示,该方法包括:\n[0035] S101,对电子邮件中的单个符号进行识别,并获得识别结果;\n[0036] S102,对识别结果进行分类判定,获得判定结果;\n[0037] S103,对判定结果进行转换,获得纯数字号码串。\n[0038] 其中,在S101中,根据字符编码识别符号为单字节符号或者为双字节符号。根据字符编码的特性(最高位是否为1)识别出所提取符号为单字节符号还是双字节符号。若该符号为单字节符号,则取一个字节内容;若该符号为双字节符号,则取两个字节内容。\n[0039] 在S102中,当判定符号为单字节符号时,根据字符编码判定是否为单字节纯数字,或者是否为单字节分隔符;当判定符号为双字节符号时,根据字符编码判定是否为双字节符号号码,或者是否为双字节分隔符。\n[0040] 具体实施中,若符号为单字节符号时,则根据字符编码的内容判定是否为单字节纯数字“0-9”,或者是否为单字节分隔符;若符号为双字节符号时,则根据字符编码的内容判定,是否为符号号码(“⑨”之类,如“⑨”的编码为0xA2,0xE1),或者是否为双字节分隔符。\n[0041] 在S103中,若判定为单字节纯数字,则直接记录该数字;若判定为双字节字符,则转换为单字节字符,并转换为纯数字号码。\n[0042] 具体实施中,若为单字节纯数字,则直接记录;若为连接符,则获取并继续处理获取下一符号;若为双字节字符,则转换成对应的单字节字符(由于这类符号编码是连续的,只要跟起始编码相减的值就是所要转换到的号码,如⑨,0xE1–0xA8 =0x39,则数字“9”的编码为0x39);若为其他,则当前号码提取结束,校验号码是否需要记录,号码长度等。\n[0043] 进一步地,在获得纯数字号码串后,还可以对纯数字号码串进行检验记录,包括是否为纯数字号码、号码的长度是否符合要求、以及是否需要记录等。\n[0044] 实施本发明的方法实施例,可在电子邮件的主题或内容中识别出带分隔符的号码以及符号号码,并将混合号码转换为纯数字号码串,可以降低号码提取的难度,以及降低资源的消耗;以及方便电子邮件中反垃圾模块的分析以及规则的应用,以快速地识别出是否为垃圾电子邮件,给用户带来便利。\n[0045] 本发明实施例还提供了一种电子邮件中号码的提取装置,如图2所示,该装置包括:\n[0046] 识别模块1,用于对电子邮件中的单个符号进行识别,并获得识别结果;\n[0047] 判定模块2,用于对识别模块1所获得的识别结果进行分类判定,获得判定结果;\n[0048] 转换模块3,用于对判定模块2所获得的判定结果进行转换,获得纯数字号码串。\n[0049] 其中,该识别模块1用于根据字符编码识别符号为单字节符号或者为双字节符号。\n具体方式是:根据字符编码的特性(最高位是否为1)识别出所提取符号为单字节符号还是双字节符号。若该符号为单字节符号,则取一个字节内容;若该符号为双字节符号,则取两个字节内容。\n[0050] 判定模块2还用于当判定符号为单字节符号时,根据字符编码判定是否为单字节纯数字,或者是否为单字节分隔符;以及用于当判定符号为双字节符号时,根据字符编码判定是否为双字节符号号码,或者是否为双字节分隔符。\n[0051] 具体实施中,若符号为单字节符号时,则判定模块2根据字符编码的内容判定是否为单字节纯数字“0-9”,或者是否为单字节分隔符;若符号为双字节符号时,则判定模块2根据字符编码的内容判定,是否为符号号码(“⑨”之类,如“⑨”的编码为0xA2,0xE1),或者是否为双字节分隔符。\n[0052] 另外,转换模块3还用于若判定结果为单字节纯数字时,则直接记录该数字;以及用于若判定结果为双字节字符时,则转换为单字节字符,并转换为纯数字号码。具体实施中,若为单字节纯数字,则直接记录;若为连接符,则获取并继续处理获取下一符号;若为双字节字符,则转换成对应的单字节字符(由于这类符号编码是连续的,只要跟起始编码相减的值就是所要转换到的号码,如⑨,0xE1–0xA8 =0x39,则数字“9”的编码为0x39);若为其他,则当前号码提取结束,校验号码是否需要记录,号码长度等。\n[0053] 进一步地,该装置还可以包括:检验记录模块(图中未示出),用于对纯数字号码串进行检验记录,包括是否为纯数字号码、号码的长度是否符合要求、以及是否需要记录等。\n[0054] 实施本发明的装置实施例,可在电子邮件的主题或内容中识别出带分隔符的号码以及符号号码,并将混合号码转换为纯数字号码串,可以降低号码提取的难度,以及降低资源的消耗;以及方便电子邮件中反垃圾模块的分析以及规则的应用,以快速地识别出是否为垃圾电子邮件,给用户带来便利。\n[0055] 本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。\n[0056] 另外,以上对本发明实施例所提供的电子邮件中号码的提取方法及其装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
法律信息
- 2018-01-30
专利权的转移
登记生效日: 2018.01.10
专利权人由盈世信息科技(北京)有限公司变更为论客科技(广州)有限公司
地址由100080 北京市海淀区海淀南路19号时代网络大厦8003室变更为510000 广东省广州市番禺区小谷围街大学城明志街1号信息枢纽楼5楼503房
- 2017-07-28
- 2014-02-05
实质审查的生效
IPC(主分类): H04L 12/58
专利申请号: 201310397191.5
申请日: 2013.09.04
- 2014-01-01
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2011-06-08
|
2010-12-17
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |