著录项信息
专利名称 | 一种缩减数据占用空间的云存储方法 |
申请号 | CN201310092773.2 | 申请日期 | 2013-03-21 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2013-06-12 | 公开/公告号 | CN103152430A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | H04L29/08 | IPC分类号 | H;0;4;L;2;9;/;0;8查看分类表>
|
申请人 | 河海大学 | 申请人地址 | 江苏省南京市鼓楼区西康路1号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 河海大学 | 当前权利人 | 河海大学 |
发明人 | 许峰;刘璇;张云飞;周文欢 |
代理机构 | 南京苏高专利商标事务所(普通合伙) | 代理人 | 柏尚春 |
摘要
本发明公开了一种缩减数据占用空间的云存储方法,包括如下步骤:从终端上传数据到云存储服务器;用固定尺寸划分算法的块检测技术将重复的数据删除;数据存入数据块后,再用LZW数据压缩技术降低基本数据块体积,实现数据压缩。本发明通过将数据压缩技术与重复数据删除技术相结合,先删除重复数据再数据压缩的方法,实现更高的数据缩减比例,获得更高的数据压缩率和性能。
1.一种缩减数据占用空间的云存储方法,其特征在于:包括如下步骤:
(1)从终端上传数据到云存储服务器;
(2)用固定尺寸划分算法的块检测技术将重复的数据删除,具体过程为:
将数据划分为很多数据块,然后计算检测重复数据块,将相同的数据块只保留唯一副本,其他重复副本用指向唯一副本的指针替换,计算检测重复数据块的核心是数据指纹算法;
(3)数据存入数据块后,再用LZW数据压缩技术降低基本数据块体积,实现数据压缩;
其中,所述数据指纹算法是指采用MD5算法;
所述采用LZW数据压缩技术进行压缩的过程是:
1)初始化符号表;
2)读取第一个字符K,前缀字串P=K;
3)对字符流中每个字符重复做4~9步;
4)读入下一个字符K;
5)假如K是“结束”符,输出K的代码,然后算法结束;
6)假如P+K在符号表中,则P=P+K,转步4;
7)写符号表中对应P的代码到代码流;
8)将P+K加入符号表,符号表增加一项;
9)P=K,转步5;
所述LZW数据解压过程如下:
1)初始化符号表;
2)输入第一个代码并赋值给备用字符串O;
3)输出字符串O;
4)对代码流中每个代码重复做5~9步;
5)读取一个代码Code;
6)假如Code是“结束”码,则算法结束;
7)假如Code在符号表中,则输出符号表中对应Code项的字串N,将符号表中对应上次读取的代码OldCode项的字串O和符号表中对应Code项的字串N首字符连结成的字串加入符号表,转步9;
8)输出符号表中对应上次读取的代码OldCode项的字串O和该字串首字符连结成的字串,将此结果字串加入符号表中;
9)O=N,转步5。
一种缩减数据占用空间的云存储方法\n技术领域\n[0001] 本发明涉及云存储技术领域,特别是涉及一种缩减数据占用空间的云存储方法。\n背景技术\n[0002] 面对数据的急剧膨胀,企业需要不断购置大量的存储设备来应对不断增长的存储需求。然而,单纯地提高存储容量不能从根本解决问题。因此提出了高效存储理念,它旨在缓解存储系统的空间增长问题,缩减数据占用空间,简化存储管理,最大程度地利用已有资源,降低成本。\n[0003] 目前业界公认的五项高效存储技术分别是数据压缩、重复数据删除、自动精简配置、自动分层存储和存储虚拟化。目前,数据压缩和重复数据删除是实现数据缩减的两种关键技术。数据压缩技术通过对数据重新编码来降低冗余度,而重复删除技术侧重于删除重复的数据块。数据压缩与重复数据删除两种技术具有不同层面的针对性,将两种技术结合起来,可以实现更高的数据缩减比例。\n发明内容\n[0004] 发明目的:本发明提供了一种缩减数据占用空间的云存储方法,通过将数据压缩技术与重复数据删除技术相结合,先删除重复数据再数据压缩的方法,实现更高的数据缩减比例,获得更高的数据压缩率和性能。\n[0005] 技术方案:一种缩减数据占用空间的云存储方法,包括如下步骤:\n[0006] 从终端上传数据到云存储服务器;\n[0007] 用固定尺寸划分算法的块检测技术将重复的数据删除;基于固定尺寸划分算法的块检测技术是将数据划分为很多数据块,然后计算检测重复数据块,将相同的数据块只保留唯一副本,其他重复副本用指向唯一副本的指针替换,计算检测重复数据块的核心是数据指纹算法。\n[0008] 数据存入数据块后,再用LZW数据压缩技术降低基本数据块体积,实现数据压缩。\n[0009] 本发明采用上述技术方案,具有以下有益效果:本发明提供了一种缩减数据占用空间的云存储方法,通过将数据压缩技术与重复数据删除技术相结合,先删除重复数据再数据压缩的方法,实现更高的数据缩减比例,获得更高的数据压缩率和性能。\n附图说明\n[0010] 图1为本发明实施例的方法流程图;\n[0011] 图2为本发明实施例的删除重复数据流程图;\n[0012] 图3为本发明实施例的LZW算法压缩数据流程图;\n[0013] 图4为本发明实施例的LZW算法解压数据流程图。\n具体实施方式\n[0014] 下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。\n[0015] 一种缩减数据占用空间的云存储方法,包括:终端上传数据到云存储服务器;采用基于FSP算法的块检测技术将重复的数据删除;数据存入数据块后,再采用数据压缩技术降低基本数据块体积。\n[0016] 基于固定尺寸划分算法(FSP)的相同数据块检测技术是使用固定大小的分块策略在存储系统中识别相同数据的方法。基于FSP算法的块检测技术是一种“智能压缩”方法,是将数据划分为很多数据块,然后计算检测重复数据块,将相同的数据块只保留唯一的一个副本,其他重复副本用指向唯一副本的指针替换,计算检测重复数据块的核心是数据指纹算法,本发明采用MD5算法实现数据指纹计算。\n[0017] LZW数据压缩技术可压缩和解压缩任何类型的数据,它处理可预测性较小的数据且通常得到的文件格式最小。在它对数据的编码过程中建立一个符号表,如果读到已经编码的数据块,则可用编码符号来代表,把原始数据转化成一系列符号标志或代码,这样做数据量会大为减少。LZW是完全可逆的,所有信息都保留了,其符号表在压缩和解压缩过程中完全自生成。实现采用9~12位的可变长编码,允许压缩算法表示0-4096的数字,所以符号表中最多可有4096项。这个串表对不同数据是不一样的,但不需要保留给解压缩程序,解压缩过程中能自动建立和压缩过程中相同的符号表。\n[0018] MD5算法为计算机广泛使用的一种哈希算法。该算法是将任意长度的输入信息经过复杂的线性变换,生成一个唯一的长为128位(bits)的散列值,即数字指纹。由于任意两段明文加密以后得到相同的密文,如果加密特定的数据,得到的密文一定是相同的,因此可以采用MD5算法计算指纹,判别数据是否重复。\n[0019] 所述重复数据删除过程如下:\n[0020] 1)将数据流分成固定的数据块;\n[0021] 2)将每个数据块生成一个独特的指纹;\n[0022] 3)如果新数据块的指纹与设备散列索引中的某个散列匹配,仅存入指针,并指向存储相同数据块的原始位置。否则,如果数据块是唯一的,就将数据块的指纹存入索引中。\n[0023] 所述LZW数据压缩过程如下:\n[0024] 1)初始化符号表;\n[0025] 2)读取第一个字符K,前缀字串P=K;\n[0026] 3)对字符流中每个字符重复做4~9步;\n[0027] 4)读入下一个字符K;\n[0028] 5)假如K是“结束”符,输出K的代码,然后算法结束;\n[0029] 6)假如P+K在符号表中,则P=P+K,转步4;\n[0030] 7)写符号表中对应P的代码到代码流;\n[0031] 8)将P+K加入符号表,符号表增加一项;\n[0032] 9)P=K,转步5。\n[0033] 相对于压缩过程,LZW算法的解压过程关键在于其初始化与压缩程序一致,解压过程关键在于其初始化的符号表几乎与压缩过程同步。\n[0034] LZW数据解压过程如下:\n[0035] 1)初始化符号表;\n[0036] 2)输入第一个代码并赋值给备用字符串O;\n[0037] 3)输出字符串O;\n[0038] 4)对代码流中每个代码重复做5~9步;\n[0039] 5)读取一个代码Code;\n[0040] 6)假如Code是“结束”码,则算法结束;\n[0041] 7)假如Code在符号表中,则输出符号表中对应Code项的字串N,将符号表中对应上次读取的代码OldCode项的字串O和符号表中对应Code项的字串N首字符连结成的字串加入符号表,转步9;\n[0042] 8)输出符号表中对应上次读取的代码OldCode项的字串O和该字串首字符连结成的字串,将此结果字串加入符号表中;\n[0043] 9)O=N,转步5。
法律信息
- 2016-06-08
- 2013-07-17
实质审查的生效
IPC(主分类): H04L 29/08
专利申请号: 201310092773.2
申请日: 2013.03.21
- 2013-06-12
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2011-08-17
|
2011-04-01
| | |
2
| |
2010-05-12
|
2009-12-10
| | |
3
| |
2012-09-19
|
2012-03-02
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |