著录项信息
专利名称 | 一种针对含特殊字符的URL编码后的自动解码方法 |
申请号 | CN201210585397.6 | 申请日期 | 2012-12-28 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2013-05-08 | 公开/公告号 | CN103092922A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 国家计算机网络与信息安全管理中心 | 申请人地址 | 北京市朝阳区裕民路甲3号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 国家计算机网络与信息安全管理中心 | 当前权利人 | 国家计算机网络与信息安全管理中心 |
发明人 | 刘欣然;李焱;赵丽 |
代理机构 | 北京安博达知识产权代理有限公司 | 代理人 | 徐国文 |
摘要
本发明提供一种针对含特殊字符的URL编码后的自动解码方法,包括:步骤S1,输入需要解码的编码后的URL字符串;步骤S2,按照不同的编码方式对编码后的URL字符串进行解码,得到不同的URL字符串;步骤S3,对得到的不同的URL字符串按照其对应的解码方式进行编码,得到不同的编码后的URL字符串;步骤S4,将得到的不同的编码后的URL字符串与输入的需要解码的编码后的URL字符串进行对比,如果得到的不同的编码后的URL字符串中有一个与需要解码的编码后的URL字符串相同,取编码后的URL字符串对应的编码方式下步骤S2中得到的URL字符串为需要解码的编码后的URL字符串自动解码得到的URL字符串,精确得到需要解码的编码后的URL字符串的编码方式进行解码。
1.一种针对特殊字符的URL编码后的自动解码方法,其特征在于,所述方法包括:
步骤S1,输入需要解码的编码后的URL字符串;
步骤S2,按照不同编码方式对所述编码后的URL字符串进行解码,得到不同的URL字符串;
步骤S3,对所述得到的不同的URL字符串按照S2中的解码方式进行编码,得到不同编码后的URL字符串;
步骤S4,将所述得到的不同的URL字符串与输入的所述需要解码的编码后的URL字符串进行对比,如果所述得到的不同编码后的URL字符串有一个与所述需要解码的编码后的URL字符串相同,取所述编码后的URL字符串对应的编码方式下步骤S2中得到的URL字符串为所述需要解码的编码后的URL字符串自动解码得到的URL字符串;
所述步骤S2中按照不同的编码方式对所述编码后的URL字符串进行解码是根据常用的编码字符集进行编码的:
在中文环境下,按照GBK、Big5和UTF‐8不同的编码方式进行解码;
如果所述步骤S2中按照所述常用的编码字符集进行不同方式的解码后,其所述步骤S4中对比没有得到与所述需要解码的编码后的URL字符串相同的编码后的URL字符串,采用与所述步骤S2中不同编码方式进行步骤S2‐S4的操作;
所述特殊字符是指含有中文字符的URL转义后的含有百分号的字符串。
一种针对含特殊字符的URL编码后的自动解码方法\n技术领域\n[0001] 本发明涉及计算机应用技术领域,具体涉及一种针对含特殊字符的URL编码后的自动解码方法。\n背景技术\n[0002] 统一资源定位符(URL,Uniform Universal Resource Locator)也被称为网页地址,是因特网上标准的资源地址。在一些互联网应用中,为消除歧义,需要对URL进行编码。\n例如,含有中文、空格等特殊字符的URL通常会编码成含有“%”和“E6”等的字符长串。很多新闻站点的URL中会包含该条新闻的标题相关信息,恢复URL的原有形式在互联网信息采集领域有着非常重要的意义。可通过分析编码后的URL中特殊字符值的分布来判断编码方式,进而解码出原URL。但不同的编码方式存在交叉,有的字符值会在不同的编码方式中出现。\n发明内容\n[0003] 本发明涉及一种针对含特殊字符的URL编码后的自动解码方法,所述方法包括:\n[0004] 步骤S1,输入需要解码的编码后的URL字符串;\n[0005] 步骤S2,按照不同的编码方式对所述编码后的URL字符串进行解码,得到不同的URL字符串;\n[0006] 步骤S3,对所述得到的不同的URL字符串按照S2中的解码方式进行编码,得到不同的编码后的URL字符串;\n[0007] 步骤S4,将所述得到的不同的编码后的URL字符串与输入的所述需要解码的编码后的URL字符串进行对比,如果所述得到的不同的编码后的URL字符串中有一个与所述需要解码的编码后的URL字符串相同,取所述编码后的URL字符串对应的编码方式下步骤S2中得到的URL字符串为所述需要解码的编码后的URL字符串自动解码得到的URL字符串。\n[0008] 本发明提供的第一优选实施例中:所述步骤S2中按照不同的编码方式对所述编码后的URL字符串进行解码是根据常用的编码字符集进行解码的;\n[0009] 在中文环境下,按照GBK、Big5和UTF-8不同的编码方式进行解码。\n[0010] 本发明提供的第二优选实施例中:如果所述步骤S2中按照所述常用的编码字符集进行不同方式的解码后,所述步骤S4中对比没有得到与所述需要解码的编码后的URL字符串相同的编码后的URL字符串,采用与所述步骤S2中不同的编码方式进行步骤S2-S4的操作。\n[0011] 本发明提供的一种针对含特殊字符的URL编码后的自动解码方法的有益效果包括:\n[0012] 本发明提供的一种针对含特殊字符的URL编码后的自动解码方法,针对含特殊字符的编码后的URL字符串,在URL字符串编码方式不明确并且不同的编码方式存在交叉不容易判断编码方式的情况下,比较精确的得到编码方式进行解码。\n附图说明\n[0013] 如图1所示为本发明提供的一种针对含特殊字符的URL编码后的自动解码方法的实施例的流程图。\n具体实施方式\n[0014] 本发明提供一种针对含特殊字符的URL编码后的自动解码方法,该方法包括:\n[0015] 步骤S1,输入需要解码的编码后的URL字符串。\n[0016] 步骤S2,按照不同的编码方式对该编码后的URL字符串进行解码,得到不同的URL字符串。\n[0017] 步骤S3,对步骤S2中得到的不同的URL字符串按照其对应的解码方式进行编码,得到不同的编码后的URL字符串。\n[0018] 步骤S4,将得到的不同的编码后的URL字符串与输入的需要解码的编码后的URL字符串进行对比,如果得到的不同的编码后的URL字符串中有一个与需要解码的编码后的URL字符串相同,取该编码后的URL字符串对应的编码方式下步骤S2中得到的URL字符串为需要解码的编码后的URL字符串自动解码得到的URL字符串。\n[0019] 步骤S2中按照不同的编码方式对编码后的URL字符串进行解码是根据常用的编码字符集进行解码的,比如在中文环境下:按照GBK、Big5和UTF-8等不同的编码方式进行解码。\n[0020] 如果按照常用的编码字符集进行不同方式的解码后,步骤S4中对比没有得到与需要解码的编码后的URL字符串相同的编码后的URL字符串,那么可以采用其他不常用的编码方式进行步骤S2-S4的操作。\n[0021] 如图1所示为本发明提供的一种针对含特殊字符的URL编码后的自动解码方法的实施例的流程图,需要解码的编码后的URL字符串为:“..%ACF%AAv...”,假设GBK、Big5和Utf-8等不同的编码方式后进行相应的解码,得到不同的URL字符串,在按照其对应的解码方式进行编码得到不同的URL字符串,将得到的不同的URL字符串与“..%ACF%AAv...”进行对比,得到Big5编码方式下得到的URL字符串与“..%ACF%AAv...”相同,则取Big5编码方式下解码得到的“..政治...”为本实施例中需要解码的编码后的URL字符串经过自动解码得到的URL字符串。\n[0022] GBK编码与Big5编码的字符集有交叉,导致根据编码值的分布范围求原字符的编码方式在有些情况下行不通;URL中的特殊字符一般不止一个,实际中所有的特殊字符在两种字符集中的编码值都相同的概率非常小,该情况下,只能通过肉眼并结合已有经验判断原URL值,保证了本方法的有效性。\n[0023] 最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。
法律信息
- 2018-04-10
- 2014-06-04
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201210585397.6
申请日: 2012.12.28
- 2013-05-08
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2010-07-14
|
2009-01-12
| | |
2
| |
2010-10-06
|
2010-05-27
| | |
3
| | 暂无 |
2005-02-02
| | |
4
| | 暂无 |
2010-11-09
| | |
5
| |
2010-12-15
|
2010-07-20
| | |
6
| |
2010-03-10
|
2009-10-12
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |