一种数据存储方法和装置

发明专利有效专利

申请号：
CN201210438962.6
IPC分类号：G06F17/30
申请日期：
2012-11-06
申请人：
无锡江南计算技术研究所

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	一种数据存储方法和装置
申请号	CN201210438962.6	申请日期	2012-11-06
法律状态	暂无	申报国家	中国
公开/公告日	2013-02-06	公开/公告号	CN102915373A
优先权	暂无	优先权号	暂无
主分类号	G06F17/30 ? IPC结构图谱： G 物理 G0 仪器 G06 计算；推算；计数 G06F 电数字数据处理（基于特定计算模型的计算机系统入G06N） G06F17/00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法〔6〕 G06F17/30 信息检索；及其数据库结构〔6〕	IPC分类号	G;0;6;F;1;7;/;3;0查看分类表>
申请人	无锡江南计算技术研究所	申请人地址	江苏省无锡市滨湖区军东新村030号变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	无锡江南计算技术研究所	当前权利人	无锡江南计算技术研究所
发明人	倪颖杰;姚建华;李祖华;张军;朱开颜;刘桂英;马飞;李弢
代理机构	北京集佳知识产权代理有限公司	代理人	骆苏华

摘要

本申请公开了一种数据存储方法和装置，该方法获取待分析数据集，确定该数据集中的各个子数据集的数据类别；并查询预置的数据类别与数据分类规则的对应关系，确定子数据集的数据分类规则，按照子数据集的数据分类规则，将该子数据集划分为第一子数据集和第二子数据集，并确定第一子数据集和第二子数据集中各项数据的存储模式；依据所述存储模式，将所述第一子数据集中的各项数据存储至结构化数据存储区，将所述第二子数据集存储至非结构化数据存储区。利用该方法进行数据存储时，可以提高数据查询以及统计的便捷性，也可以比较灵活的调整数据的存储方式。

1.一种数据存储方法，其特征在于，包括：
获取待分析数据集；
确定所述数据集中的各个子数据集的数据类别；
查询预置的数据类别与数据分类规则的对应关系，确定所述子数据集的数据分类规则；
按照所述子数据集的数据分类规则，将所述子数据集划分为第一子数据集和第二子数据集，并确定所述第一子数据集和第二子数据集中各项数据的存储模式；
依据所述存储模式，将所述第一子数据集中的各项数据存储至结构化数据存储区，将所述第二子数据集存储至非结构化数据存储区；
其中所述确定所述数据集中的各个子数据集的数据类别，包括：
分析所述数据集中各个子数据集的数据的组织格式，确定所述子数据集的数据的组织格式对应的数据类别；
或，
查询所述数据集中的各个子数据集中所包含的数据标识，确定与所述子数据集中所包含的数据标识对应的数据类别；
其中，在依据所述存储模式，将所述第一子数据集中的各项数据存储至结构化数据存储区，将所述第二子数据集存储至非结构化数据存储区之前，还包括：
构建唯一标识所述子数据集的特征码；
所述依据所述存储模式，将所述第一子数据集中的各项数据存储至结构化数据存储区，将所述第二子数据集存储至非结构化数据存储区，包括：
依据所述存储模式，将所述特征码与第一子数据集中的各项数据对应存储至结构化数据存储区，并将所述特征码与第二子数据集中的各项数据对应存储至非结构化数据存储区。
2.根据权利要求1所述的方法，其特征在于，所述获取待分析数据集，包括：
从采集到的原始数据中抽取指定比例的数据作为所述待分析数据集。
3.根据权利要求1所述的方法，其特征在于，所述存储模式，包括：
数据项的数据存储格式、数据项的数据存储空间和/或索引信息。
4.根据权利要求1所述的方法，其特征在于，还包括：
接收对所述预置的数据类别与数据分类规则的对应关系的更新请求；
依据所述更新请求，更改或添加数据类别与数据分类规则的对应关系。
5.一种数据存储装置，其特征在于，包括：
数据获取单元，用于获取待分析数据集；
类别确定单元，用于确定所述数据集中的各个子数据集的数据类别；
分类规则确定单元，用于查询预置的数据类别与数据分类规则的对应关系，确定所述子数据集的数据分类规则；
数据分类单元，用于按照所述子数据集的数据分类规则，将所述子数据集划分为第一子数据集和第二子数据集，并确定所述第一子数据集和第二子数据集中各项数据的存储模式；
存储单元，用于依据所述存储模式，将所述第一子数据集中的各项数据存储至结构化数据存储区，将所述第二子数据集存储至非结构化数据存储区；
其中所述类别确定单元，包括：
第一类别确定单元，用于分析所述数据集中各个子数据集的数据的组织格式，确定所述子数据集的数据的组织格式对应的数据类别；
或，
第二类别确定单元，用于查询所述数据集中的各个子数据集中所包含的数据标识，确定与所述子数据集中所包含的数据标识对应的数据类别；
其中，还包括：
特征码生成单元，用于构建唯一标识所述子数据集的特征码；
所述存储单元，具体为：用于依据所述存储模式，将所述特征码与第一子数据集中的各项数据对应存储至结构化数据存储区，并将所述特征码与第二子数据集中的各项数据对应存储至非结构化数据存储区。
6.根据权利要求5所述的装置，其特征在于，所述数据获取单元，具体为：用于从采集到的原始数据中抽取指定比例的数据作为所述待分析数据集。
7.根据权利要求5所述的装置，其特征在于，所述数据分类单元确定出的存储模式包括：数据项的数据存储格式、数据项的数据存储空间和/或索引信息。
8.根据权利要求5所述的装置，其特征在于，还包括：
更新请求接收单元，用于接收对所述预置的数据类别与数据分类规则的对应关系的更新请求；
规则更新单元，用于依据所述更新请求，更改或添加数据类别与数据分类规则的对应关系。

一种数据存储方法和装置\n技术领域\n[0001] 本申请涉及大数据处理技术领域，更具体的说是涉及一种数据存储方法和装置。\n背景技术\n[0002] 随着数据生成的自动化以及数据生成速度的加快，需要处理的数据量急剧增加，大数据时代已经降临。大数据具有体量大、数据类型繁多等特点，大数据的分析挖掘则要从各种各样类型的数据中，快速获取到有价值的数据。\n[0003] 在进行大数据的分析挖掘之前，一般需要采集并存储获取到的海量数据信息。大数据包括结构化、半结构化和非结构化等多类数据，目前，常见的大数据存储方式有两种，其中一种是将采集到的数据均作为结构化数据存储到关系数据库系统中，但是以这种存储方式进行大数据存储时，则会影响到文本等数据的查询速度；另一种存储方式是将采集到的数据均作为非结构化数据存储到文件系统中，但是该种存储方式进行数据存储时，则无法进行较为复杂的统计分析。同时，由于关系数据库和文件系统的架构差别较大，当对数据存储方式进行变化时，无法灵活的调整数据存储方式。\n发明内容\n[0004] 有鉴于此，本申请提供一种数据存储方法和装置，以该种方式进行存储时，减少现有技术中存在的查询速度慢以及统计分析不便的情况，并能够有效提高调整数据存储的灵活性。\n[0005] 为实现上述目的，本申请提供如下技术方案：一种数据存储方法，包括：\n[0006] 获取待分析数据集；\n[0007] 确定所述数据集中的各个子数据集的数据类别；\n[0008] 查询预置的数据类别与数据分类规则的对应关系，确定所述子数据集的数据分类规则；\n[0009] 按照所述子数据集的数据分类规则，将所述子数据集划分为第一子数据集和第二子数据集，并确定所述第一子数据集和第二子数据集中各项数据的存储模式；\n[0010] 依据所述存储模式，将所述第一子数据集中的各项数据存储至结构化数据存储区，将所述第二子数据集存储至非结构化数据存储区。\n[0011] 优选的，在依据所述存储模式，将所述第一子数据集中的各项数据存储至结构化数据存储区，将所述第二子数据集存储至非结构化数据存储区之前，还包括：\n[0012] 构建唯一标识所述子数据集的特征码；\n[0013] 所述依据所述存储模式，将所述第一子数据集中的各项数据存储至结构化数据存储区，将所述第二子数据集存储至非结构化数据存储区，包括：\n[0014] 依据所述存储模式，将所述特征码与第一子数据集中的各项数据对应存储至结构化数据存储区，并将所述特征码与第二子数据集中的各项数据对应存储至非结构化数据存储区。\n[0015] 优选的，所述获取待分析数据集，包括：\n[0016] 从采集到的原始数据中抽取指定比例的数据作为所述待分析数据集。\n[0017] 优选的，所述确定所述数据集中的各个子数据集的数据类别，包括：\n[0018] 分析所述数据集中各个子数据集的数据的组织格式，确定所述子数据集的数据的组织格式对应的数据类别。\n[0019] 优选的，所述确定所述数据集中的各个子数据集的数据类别，包括：\n[0020] 查询所述数据集中的各个子数据集中所包含的数据标识，确定与所述子数据集中所包含的数据标识对应的数据类别。\n[0021] 优选的，所述存储模式，包括：\n[0022] 数据项的数据存储格式、数据项的数据存储空间和/或索引信息。\n[0023] 优选的，还包括：\n[0024] 接收对所述预置的数据类别与数据分类规则的对应关系的更新请求；\n[0025] 依据所述更新请求，更改或添加数据类别与数据分类规则的对应关系。\n[0026] 另一方面，对应本申请的数据存储方法，本申请还提供了一种数据存储装置，包括：\n[0027] 数据获取单元，用于获取待分析数据集；\n[0028] 类别确定单元，用于确定所述数据集中的各个子数据集的数据类别；\n[0029] 分类规则确定单元，用于查询预置的数据类别与数据分类规则的对应关系，确定所述子数据集的数据分类规则；\n[0030] 数据分类单元，用于按照所述子数据集的数据分类规则，将所述子数据集划分为第一子数据集和第二子数据集，并确定所述第一子数据集和第二子数据集中各项数据的存储模式；\n[0031] 存储单元，用于依据所述存储模式，将所述第一子数据集中的各项数据存储至结构化数据存储区，将所述第二子数据集存储至非结构化数据存储区。\n[0032] 优选的，所述装置还包括：\n[0033] 特征码生成单元，用于构建唯一标识所述子数据集的特征码；\n[0034] 所述存储单元，具体为：用于依据所述存储模式，将所述特征码与第一子数据集中的各项数据对应存储至结构化数据存储区，并将所述特征码与第二子数据集中的各项数据对应存储至非结构化数据存储区。\n[0035] 优选的，所述数据获取单元，具体为：用于从采集到的原始数据中抽取指定比例的数据作为所述待分析数据集。\n[0036] 优选的，所述类别确定单元，包括：\n[0037] 第一类别确定单元，用于分析所述数据集中各个子数据集的数据的组织格式，确定所述子数据集的数据的组织格式对应的数据类别。\n[0038] 优选的，所述类别确定单元，包括：\n[0039] 第二类别确定单元，用于查询所述数据集中的各个子数据集中所包含的数据标识，确定与所述子数据集中所包含的数据标识对应的数据类别。\n[0040] 优选的，所述数据分类单元确定出的存储模式包括：数据项的数据存储格式、数据项的数据存储空间和/或索引信息。\n[0041] 优选的，所述装置还包括：\n[0042] 更新请求接收单元，用于接收对所述预置的数据类别与数据分类规则的对应关系的更新请求；\n[0043] 规则更新单元，用于依据所述更新请求，更改或添加数据类别与数据分类规则的对应关系。\n[0044] 经由上述的技术方案可知，与现有技术相比，本申请提供了一种数据存储方法和装置，该方法针对不同数据类型设定了不同的数据分类规则，在确定子数据的数据类型对应的数据分类规则后，将子数据集中的数据划分两部分数据，以实现调整存入到结构数据存储区和非结构化数据存储区的数据项，与单独利用结构化存储方式可以减少检索不便的问题，同时与单独利用非结构化数据存储方式相比，也减少了无法进行复杂统计的情况。同时，当存储需求改变时，可以直接调整数据类别对应的数据分类规则，即可便捷的调整某类数据的存储方式。\n附图说明\n[0045] 为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。\n[0046] 图1示出了本申请一种数据存储方法一个实施例的流程示意图；\n[0047] 图2示出了本申请一种数据存储方法另一个实施例的流程示意图；\n[0048] 图3示出了本申请一种数据存储装置一个实施例的结构示意图；\n[0049] 图4示出了本申请一种数据存储装置另一个实施例的结构示意图。\n具体实施方式\n[0050] 下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。\n[0051] 本申请可用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。\n[0052] 本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。\n[0053] 参见图1，示出了本申请一种数据存储方法一个实施例的流程示意图，本实施例的方法包括：\n[0054] 步骤101：获取待分析数据集。\n[0055] 一般在进行大数据挖掘之前均需要进行数据的采集，大量的数据被从生成数据的各个目标源中采集到，以便后续进行数据挖掘。不同应用领域的数据采集方式以及采集到的数据可能会所有差异。如，在科学研究领域和计算机仿真领域，数据是通过超级计算机并行计算得到的，这些超级计算机可以作为生成数据的目标源，而采集到的数据一般为海量的计算数据；而对于互联网应用领域，则可以通过在网关或数据中心部署网络数据采集设备，并依据互联网协议通过固定端口来采集网络数据包。\n[0056] 在本申请中，该待分析数据集是指从目标源生成的源数据中采集到的用于进行数据挖掘的数据集合。具体的，当从目标源采集到源数据后，可以将采集到的所有源数据均作为待分析数据集。但在实际应用中采集到的源数据的数据量较大，因此将所有的源数据均作为待分析数据集，会使数据挖掘的数据处理量较大，且耗时较长，因此，也可以从采集到的源数据中抽取指定比例的样本数据作为待分析数据集。其中，在从源数据中抽取样本数据时，应使得该样本数据中包含该源数据中的各种类型的数据信息。如，以互联网中的数据挖掘为例，在获取到的待分析数据中应该尽量包含不同互联网协议的应用数据。\n[0057] 步骤102：确定该数据集中的各个子数据集的数据类别。\n[0058] 本申请实施例中，当获取到待分析的数据集之后，并不是直接将该待分析数据集中的所有数据均直接存储至一固定存储区。\n[0059] 由于待分析的数据集中包含了大量的各种不同种类的数据信息，因此，本申请实施例中，首先需要对该待分析的数据集中所包含的各个子数据集的数据内容进行分析，确定出各个子数据集中数据的数据类别。\n[0060] 其中，数据类别可以理解为某数据所具有的功能类别，不同数据类别的数据所能表达的意义不同。同一类别的数据具有能够与其他数据进行区分的数据组织格式或者是属性信息。在不同的应用领域，数据类别的划分也有所不同，具体可以以实际需要为准。\n[0061] 为了便于理解，以待分析数据集为从互联网中获取到的数据集合为例进行介绍。\n从互联网中获取到的待分析数据集中包含了从各种不同协议端口获取到的、各种各样的不同应用协议的网络数据包。每一个网络数据包可以理解为一个子数据集，而不同的网络数据包可能对应了不同的数据类别。具体的，获取到的数据集中可以包括网页、邮件、微博、即时通讯等数据类别的数据集，因此，确定获取到的数据集中各个子数据集的数据类型可以是确定出各个子数据中的数据内容属于网页、邮件、微博等数据类别中的哪一种。\n[0062] 其中，确定数据集中的各个子数据集的数据类别的方式有多种，其中一种方式可以为：分析该数据集中各个子数据集的数据的组织格式，确定各个子数据集中数据的组织格式对应的数据类别。一般情况下，不同数据类别具有不同的数据组织格式，通过对各个子数据集中的数据内容进行分析，确定出子数据集中的数据组织格式便可以确定出该子数据集中的数据所归属的数据类别。例如，互联网数据中，邮件以EML格式组织数据，即数据类别为邮件的数据的通用格式为EML格式，因此当分析出子数据集中数据组织格式为EML格式，便可以确定出该子数据集的数据类别为邮件类型。\n[0063] 另一种确定子数据中的数据类别的方式为：查询数据集中各个子数据集中所包含的数据标识，依据该数据标识所表示的数据类别，确定子数据集中数据的数据类别。也就是说，当采集的数据集的数据中含有区分不同数据类别的数据标识时，也可以通过分析各个子数据集中包含的数据标识来确定出该数据集中的数据类别。\n[0064] 另外，在实际应用中，根据不同应用领域的数据的特点，还可以有其他确定数据类别的方式，在此不一一列举。\n[0065] 步骤103：查询预置的数据类别与数据分类规则的对应关系，确定子数据集的数据分类规则。\n[0066] 本申请实施例中预先设定了不同数据类别的分类规则，针对不同数据类别的特征设定有不同的数据分类规则，数据分类规则中规定了包含了该数据类别的子数据集中数据项的分类规则，以及以何种方式来存储各个数据项。其中，该预置的数据类别与数据分类规则的对应关系可以根据实际需求进行设定。\n[0067] 步骤104：按照子数据集的数据分类规则，将子数据集划分为第一子数据集和第二子数据集，并确定第一子数据集和第二子数据集中各项数据的存储模式。\n[0068] 通过查询该预置的对应关系，可以分别确定出各个子数据各自对应的数据分类规则。对于任意一个子数据集而言，依据确定出的该子数据集的数据分类规则，将该子数据集中的数据项划归为第一子数据集和第二子数据集，同时，确定出第一子数据集中各数据项进行存储时的存储格式，以及第二子数据集中各个数据项的存储模式。\n[0069] 其中，数据项的存储模式规定了在进行该数据项存储时，该数据项的数据存储格式、该数据项的数据存储空间、是否设置索引信息以及是否压缩存储等一种或几种信息。\n[0070] 步骤105：依据确定出的存储模式，将该第一子数据集中的各项数据存储至结构化数据存储区，将所述第二子数据集存储至非结构化数据存储区。\n[0071] 与现有的直接将所有数据集中的数据存储到一直接存储区不同，本申请实施例中综合了结构化数据存储方式和非结构化数据存储两种方式的优点，对于任意一个子数据集均将其划分为第一子数据集和第二子数据集，并按照确定出的第一子数据集中各数据项的存储模式，将第一子数据集中的各项数据存储至结构化数据存储区；同时，按照确定出的第二子数据集中各数据项的存储模式，将第二子数据集中的各项数据存入到非结构化数据存储区。\n[0072] 其中，在结构化数据存储区中的数据是以具有特定结构的数据库表的形式存在，该结构化数据存储区也可以理解为一关系型数据库。相反的，在非结构数据存储中存储的数据形式则不存在特定的结构化特征，具体的，该非结构化数据存储区可以理解为文件系统。\n[0073] 需要说明的是，对于任意一个子数据集，该子数据集中的哪些数据项可以划分为第一子数据集，哪些数据项可以划分为第二子数据集，均可以参照与该子数据集对应的数据分类规则确定。当需要改变存储方式时，只需要更改该数据类别与数据分类规则的对应关系，重新设定某类数据类别所对应的数据分类规则即可调整数据存储方式。\n[0074] 为了能够更好的体现出数据库表和以文件存储的方式各自的优点，可选的，在划分一个子数据集时，可以是子数据集中的属于结构化数据的数据项划分为第一子数据集，而将子数据集中的非结构化数据划分为第二子数据集，进而使得存入到该结构化数据存储区的数据均为结构化的数据项，而存储到非结构化数据存储区的数据项均为非结构化数据。\n[0075] 为了便于理解，以子数据集的数据类别为邮件类型为例进行介绍，一封邮件的数据内容中包含了：源地址、源端口、目的地址、目的端口、邮件类型、发件人、收件人、邮件标题、邮件正文、邮件附件、邮件发送时间等数据项。并假设该与数据为邮件对应的数据分类规则规定，将邮件标题、邮件正文、邮件附件等结构化数据划归为第一子数据集，并具体规定了邮件标题、邮件正文、邮件附件等数据项的存储模式；将发送时间、源地址、源端口、目的地址、目的端口、邮件类型、发件人、收件人等非结构化数据划归为第一子数据集中的数据，进而在进行存储时，则将该第一子数据集中的各项数据按照确定出的存储模式存储至结构化数据存储区，而将第二子数据集中的各项数据按照其对应的存储模式存储到非结构化存储区，从而实现了依据结构化数据和非结构数据自身的特点来分别进行存储，优化了数据存储，便于对存储的数据进行统计检索等操作。当然，该实例中是以第一子数据集仅包含结构化数据，而第二子数据集仅包含非结构化数据为例进行介绍，但是在实际应用中很可能也可以根据需要调整来将某些结构化数据划分至第二子数据集，或者将非结构化数据划分至第一子数据集。\n[0076] 本实施例的数据存储方法中，在获取到待分析的数据集后，需确定出该数据集中各个子数据集中数据的数据类别，并从预置的数据类别与数据分类规则的对应关系中，确定子数据集中数据对应的数据分类规则，将该子数据集划分为第一子数据集和第二子数据集，并得到第一子数据集和第二子数据集中各个数据项的存储模式，进而按照确定出的存储模式，将第一子数据集和第二子数据集分别存储至结构化数据存储区和非结构化数据存储区。由于在数据存储时，依据不同的数据类别确定出不同的分类规则，并将同一类别的数据分成两部分分别存储至结构化数据存储区和非结构化存储区，从而降低了单独利用结构化存储方式所存在的检索不便，以及克服了单独利用非结构化数据所存在无法进行复杂统计的问题。同时，本申请实施例中当存储需求改变时，可以直接调整数据类别对应的数据分类规则，即可便捷的调整某类数据的存储方式，快捷方便。\n[0077] 参见图2，其示出了本申请一种数据存储方式另一个实施例的流程示意图，本实施例的方法包括：\n[0078] 步骤201：获取待分析数据集。\n[0079] 步骤202：确定该数据集中的各个子数据集的数据类别。\n[0080] 步骤203：查询预置的数据类别与数据分类规则的对应关系，确定子数据集的数据分类规则。\n[0081] 步骤204：按照子数据集的数据分类规则，将子数据集划分为第一子数据集和第二子数据集，并确定第一子数据集和第二子数据集中各项数据的存储模式。\n[0082] 本实施例的步骤201至步骤204的操作过程与图1所示实施例的步骤101至步骤104的操作过程类似，相关描述可以参见图1所示实施例的描述，在此不再赘述。\n[0083] 步骤205：构建唯一标识子数据集的特征码。\n[0084] 在本实施例中，确定出各个子数据集中数据的分类规则之后，需要分别为该数据集中的每个子数据集构建一个特征码。其中，该特征码为标识一个子数据集的标识，如，特征码可以为一个32位数字，特征码与子数据集一一对应。\n[0085] 在构建各个子数据集对应的特征码时，可以是在确定出一个子数据集的数据分类规则以及该子数据集中数据的存储模式后，即生成该子数据集的特征码。当然，也可以是当确定出该数据集中所有子数据集的分类规则以及相应的存储模式之后，统一生成与总的子数据集个数相同数量的特征码。\n[0086] 需要说明的是，在每个子数据集对应的特征码中还可以包含标识该子数据集中数据的数据类别的标识。\n[0087] 步骤206：依据该存储模式，将特征码与第一子数据集中的各项数据对应存储至结构化数据存储区，并将特征码与第二子数据集中的各项数据对应存储至非结构化数据存储区。\n[0088] 在本实施例中，将第一子数据集中的各项数据存储至结构化数据存储区时，需要将该第一子数据集所属的子数据集对应的特征码一起存入到结构化数据存储区，同时，在该结构化数据存储区中该第一子数据集的各数据项均与该特征码对应。换言之，即存入到结构化存储区中的第一子数据集中的各项数据与随该子数据集同时存入的该特征码具有关联关系。对应的，在非结构存储区中也同时存储该第二子数据集的各项数据与该特征码，该特征码与第二子数据集中的各项数据也具有关联关系。\n[0089] 当需要查询同一子数据集中分别存储至两个存储区中的数据时，便可以直接依据该子数据集对应的特征码来进行查询，即可方便快捷的查询到同一子数据集的所有数据项。\n[0090] 仍以子数据集中的数据为一封邮件为例，当确定出该邮件中各项数据的划分规则后，生成与该邮件对应的特征码M。进而将邮件中的邮件标题、邮件正文、邮件附件等数据项与该特征码M对应的存入到结构化数据存储区；将邮件的发送时间、源地址、源端口、目的地址、目的端口、邮件类型、发件人、收件人与该特征码M对应的存入到非结构化数据存储区。\n由于结构化存储区和非结构化存储区都分别存储了不同邮件地址、不同时间发送的多封邮件，如果未设置特征码，则需要在结构化数据存储区输入多个检索条件才可以检索到该封邮件相关的数据信息，同时还需要在非结构化存储区中输入多个检索条件来搜索该封邮件相关的数据信息，才可以得到该封邮件的完整信息。而且如果输入的检索条件不正确，还可能会出现同时搜索到多封邮件的数据信息，还需要用户再进行进一步的检索才可以得到所需邮件。通过在两个存储区中与该封邮件相关的数据项对应存储了特征码后，当需要查询该封邮件的相关数据信息时，则可以直接依据该特征码即可搜索到与该封邮件相关的所有数据项，减少了数据处理量，也提高了数据搜索的准确度。\n[0091] 在本实施例中在将子数据集中的第一子数据集和第二子数据集的各项数据进行存储之前，为子数据集生成一特征码，并将特征码与该第一子数据集中各项数据对应存入到结构化数据存储区，并将第二子数据集中的各项数据与该特征码对应存储至非结构化数据存储区，这样在数据挖掘时，如果需要查询同一子数据集的所有数据时，可以通过该特征码在两个存储区中快捷的查询到与该特征码对应的所有数据。\n[0092] 进一步的，在本申请实施例以上的任意一个数据存储方法中，为了便于对预置的数据类别与数据分类规则的对应关系进行修改，或者是添加新的数据类别对应的数据分类规则，本申请实施例的方法还可以包括：接收对预置的数据类别与数据分类规则的对应关系的更新请求；依据更新请求，更改或添加数据类别与数据分类规则的对应关系。当接收到更新请求时，依据该更新请求包含的待添加分类规则或者待修改内容，对相应的数据类别与数据分类规则进行修改。\n[0093] 对应本申请实施例的数据存储方法，本申请实施例还提供了一种数据存储装置，参见图3，示出了本发明一种数据存储装置一个实施例的结构示意图，本实施例的装置包括：数据获取单元301、类别确定单元302、分类规则确定单元303、数据分类单元304和存储单元305。\n[0094] 其中，该数据获取单元301，用于获取待分析数据集。\n[0095] 类别确定单元302，用于确定该数据集中的各个子数据集的数据类别。\n[0096] 分类规则确定单元303，用于查询预置的数据类别与数据分类规则的对应关系，确定所述子数据集的数据分类规则。\n[0097] 数据分类单元304，用于按照子数据集的数据分类规则，将每个子数据集划分为第一子数据集和第二子数据集，并确定该第一子数据集和第二子数据集中各项数据的存储模式。\n[0098] 其中，该数据分类单元确定出的存储模式，包括：数据项的数据存储格式、数据项的数据存储空间和/或索引信息。\n[0099] 存储单元305，用于依据所述存储模式，将所述第一子数据集中的各项数据存储至结构化数据存储区，将所述第二子数据集存储至非结构化数据存储区。\n[0100] 其中，该数据获取单元获取待分析数据的方式有多种，对应其中一种方式，该数据获取单304元，具体为：用于从采集到的原始数据中抽取指定比例的数据作为所述待分析数据集。\n[0101] 在实际应用中，类别确定单元确定出子数据集中的数据类别的方式也可以有多种方式，对应其中一种方式，该类别确定单元302包括：\n[0102] 第一类别确定单元，用于分析所述数据集中各个子数据集的数据的组织格式，确定所述子数据集的数据的组织格式对应的数据类别。\n[0103] 对应另一种确定子数据集中数据类别的方式，该类别确定单元302可以包括：\n[0104] 第二类别确定单元，用于查询所述数据集中的各个子数据集中所包含的数据标识，确定与所述子数据集中所包含的数据标识对应的数据类别。\n[0105] 参见图4，示出了本发明一种存储装置另一个实施例的结构示意图，本实施例的存储装置与图3所示实施例的不同之处在于，本实施例中该存储装置还包括：特征码生成单元\n306。\n[0106] 该特征码生成单元306，用于构建唯一标识子数据集的特征码。\n[0107] 其中，特征码与子数据集一一对应。\n[0108] 相应的，该存储单元305，具体为：用于依据该存储模式，将特征码与第一子数据集中的各项数据对应存储至结构化数据存储区，并将特征码与第二子数据集中的各项数据对应存储至非结构化数据存储区。\n[0109] 在本实施例中在存储单元进行数据存储前，由特征码生成单元为每个子数据集生成唯一标识一个子数据集的特征码，进而由存储单元将子数据集的特征码与该子数据集的第一子数据集中的各数据项存入到结构化数据存储区，并将该子数据集的特征码与该子数据集的第二子数据集中的各项数据存入到非结构化数据存储区，从而在进行同一子数据集中的数据查询时，只需依据该特征码即可便捷的查询到该子数据集中所有的数据信息。\n[0110] 进一步的，在本申请以上任意一个装置实施例中还可以包括：更新请求单元和规则更新单元。\n[0111] 其中，更新请求接收单元，用于接收对所述预置的数据类别与数据分类规则的对应关系的更新请求；\n[0112] 规则更新单元，用于依据所述更新请求，更改或添加数据类别与数据分类规则的对应关系。\n[0113] 对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。\n[0114] 需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。\n对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。\n[0115] 最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。\n[0116] 为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。\n[0117] 以上对本申请所提供的一种数据存储方法和装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
1	CN101174957A	2008-05-07	2007-10-09	面向异源数据的协同业务平台无效专利	南京财经大学
2	CN101441629A	2009-05-27	2007-11-19	一种非结构化网页信息的自动采集方法无效专利	上海新纳广告传媒有限公司
3	CN101042747A	2007-09-26	2006-03-24	经济运行分析系统无效专利	上海中经互联网络有限公司

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供