著录项信息
专利名称 | 一种获取信息的方法及装置 |
申请号 | CN201010292828.0 | 申请日期 | 2010-09-25 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2012-04-11 | 公开/公告号 | CN102411594A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 中国移动通信集团湖南有限公司 | 申请人地址 | 湖南省长沙市芙蓉中路三段446号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 中国移动通信集团湖南有限公司 | 当前权利人 | 中国移动通信集团湖南有限公司 |
发明人 | 李少年;蔡俊 |
代理机构 | 北京同达信恒知识产权代理有限公司 | 代理人 | 郭润湘 |
摘要
本发明公开了一种获取信息的方法及装置,主要技术方案包括:预先确定用于获取信息的数据,并将产生所述数据的时间段划分为多个子时间段;针对每个子时间段执行:加载当前子时间段产生的数据;确定加载的所述数据中由预先设定的至少一个数据属性组合得到的各项集对应的第一信息熵;确定在当前子时间段之前的所有子时间段产生的数据中所述各项集对应的第二信息熵;根据所述各项集对应的第一信息熵以及第二信息熵更新用于标识获取的信息的项集集合。采用该技术方案,一方面提高了信息获取的效率,另一方面降低了系统开销。
1.一种获取信息的方法,其特征在于,预先确定用于获取信息的数据,并将产生所述数据的时间段划分为多个子时间段;
针对每个子时间段执行:
加载当前子时间段产生的数据;
确定加载的所述数据中由预先设定的至少一个数据属性组合得到的各项集对应的第一信息熵;
确定在当前子时间段之前的所有子时间段产生的数据中所述各项集对应的第二信息熵;
根据所述各项集对应的第一信息熵以及第二信息熵更新用于标识获取的信息的项集集合;
根据设定的待提取数据属性以及所述用于标识获取的信息的项集集合中各项集对应的数据属性,对所述用于标识获取的信息的项集集合中保存的项集进行分组处理。
2.如权利要求1所述的方法,其特征在于,将产生所述数据的时间段划分为多个子时间段,包括:
将产生所述数据的时间段划分为等时间间隔的多个子时间段;
其中,所述时间间隔大于等于估计得到的从每个子时间段中获取信息所需的时长。
3.如权利要求1所述的方法,其特征在于,确定加载的所述数据中每个项集对应的第一信息熵,包括:
确定加载的所述数据中符合该项集对应的数据属性的数据量以及加载的所述数据的总数据量;
根据所述符合该项集对应的数据属性的数据量以及所述总数据量,确定该项集对应的第一信息熵。
4.如权利要求3所述的方法,其特征在于,根据所述符合该项集对应的数据属性的数据量以及所述总数据量,确定该项集对应的第一信息熵,包括:
确定所述符合该项集对应的数据属性的数据量与所述总数据量的比值;
利用所述比值乘以对所述比值取对数得到的值,将得到的乘积的负值确定为该项集对应的第一信息熵。
5.如权利要求1所述的方法,其特征在于,确定在当前子时间段之前的所有子时间段产生的数据中每个项集对应的第二信息熵,包括:
确定当前子时间段之前的所有子时间段产生的数据中符合该项集对应的数据属性的数据量以及当前子时间段之前的所有子时间段产生的数据的总数据量;
根据所述符合该项集对应的数据属性的数据量以及所述总数据量,确定该项集对应的第二信息熵。
6.如权利要求5所述的方法,其特征在于,根据所述符合该项集对应的数据属性的数据量以及所述总数据量,确定该项集对应的第二信息熵,包括:
确定所述符合该项集对应的数据属性的数据量与所述总数据量的比值;
利用所述比值乘以对所述比值取对数得到的值,将得到的乘积的负值确定为该项集对应的第二信息熵。
7.如权利要求3或5所述的方法,其特征在于,所述数据量为:
数据记录的条数;或
数据占用的存储空间大小。
8.如权利要求1所述的方法,其特征在于,根据所述各项集对应的第一信息熵以及第二信息熵更新用于标识获取的信息的项集集合,包括:
确定对应的第一信息熵以及第二信息熵之和达到第一阈值的第一项集集合,其中所述第一项集集合中的第一项集通过对应的第一信息熵以及第二信息熵标识;
利用所述第一项集集合更新用于标识获取的信息的项集集合。
9.如权利要求8所述的方法,其特征在于,利用所述第一项集集合更新用于标识获取的信息的项集集合,包括:
若第一项集集合中的第一项集包含在用于标识获取的信息的项集集合中,则利用所述第一项集集合中通过对应的第一信息熵以及第二信息熵标识的第一项集替换所述用于标识获取的信息的项集集合中的相应项集;
若第一项集集合中的第一项集未包含在用于标识获取的信息的项集集合中,则删除所述用于标识获取的信息的项集集合中的相应项集。
10.如权利要求8所述的方法,其特征在于,若当前子时间段非产生所述数据的时间段中的最后一个子时间段,则根据所述各项集对应的第一信息熵以及第二信息熵更新用于标识获取的信息的项集集合,还包括:
确定对应的第一信息熵达到第二阈值的第二项集集合,其中所述第二项集集合中的第二项集通过对应的第一信息熵标识;
利用所述第二项集集合更新用于标识获取的信息的项集集合。
11.如权利要求10所述的方法,其特征在于,利用所述第二项集集合更新用于标识获取的信息的项集集合,包括:
将第二项集集合中未包含在用于标识获取的信息的项集集合中的第二项集,加入所述用于标识获取的信息的项集集合中。
12.一种获取信息的装置,其特征在于,包括:
数据加载单元,用于确定用于获取信息的数据,并将产生所述数据的时间段划分为多个子时间段,并加载当前子时间段产生的数据;
第一信息熵确定单元,用于确定所述数据加载单元加载的所述数据中由预先设定的至少一个数据属性组合得到的各项集对应的第一信息熵;
第二信息熵确定单元,用于确定所述数据加载单元在当前子时间段之前的所有子时间段加载的数据中所述各项集对应的第二信息熵;
项集集合更新单元,用于根据所述第一信息熵确定单元确定的各项集对应的第一信息熵以及所述第二信息熵确定单元确定的第二信息熵更新用于标识获取的信息的项集集合;
分组处理单元,用于在分别根据所述各项集对应的第一信息熵以及第二信息熵更新用于标识获取的信息的项集集合后,根据设定的待提取数据属性以及所述用于标识获取的信息的项集集合中各项集对应的数据属性,对所述用于标识获取的信息的项集集合中保存的项集进行分组处理。
13.如权利要求12所述的装置,其特征在于,所述数据加载单元,包括:
时间段划分模块,用于确定用于获取信息的数据,将产生所述数据的时间段划分为等时间间隔的多个子时间段;其中,所述时间间隔大于等于估计得到的从每个子时间段中获取信息所需的时长;
加载模块,用于对所述时间段划分模块划分的各个子时间段进行计时,在当前子时间段结束后,加载当前子时间段产生的数据。
14.如权利要求12所述的装置,其特征在于,所述第一信息熵确定单元,包括:
第一数据量确定模块,用于确定加载的所述数据中符合该项集对应的数据属性的数据量以及加载的所述数据的总数据量;
第一信息熵确定模块,用于根据所述第一数据量确定模块确定的符合该项集对应的数据属性的数据量以及所述总数据量,确定该项集对应的第一信息熵。
15.如权利要求14所述的装置,其特征在于,所述第一信息熵确定模块,具体用于:
确定所述符合该项集对应的数据属性的数据量与所述总数据量的比值;
利用所述比值乘以对所述比值取对数得到的值,将得到的乘积的负值确定为该项集对应的第一信息熵。
16.如权利要求12所述的装置,其特征在于,所述第二信息熵确定单元,包括:
第二数据量确定模块,用于确定当前子时间段之前的所有子时间段产生的数据中符合该项集对应的数据属性的数据量以及当前子时间段之前的所有子时间段产生的数据的总数据量;
第二信息熵确定模块,用于根据所述第二数据量确定模块确定的符合该项集对应的数据属性的数据量以及所述总数据量,确定该项集对应的第二信息熵。
17.如权利要求16所述的装置,其特征在于,所述第二信息熵确定模块,具体用于:
确定所述符合该项集对应的数据属性的数据量与所述总数据量的比值;
利用所述比值乘以对所述比值取对数得到的值,将得到的乘积的负值确定为该项集对应的第二信息熵。
18.如权利要求12所述的装置,其特征在于,所述项集集合更新单元,包括:
第一项集集合确定模块,用于确定对应的第一信息熵以及第二信息熵之和达到第一阈值的第一项集集合,其中所述第一项集集合中的第一项集通过对应的第一信息熵以及第二信息熵标识;
第一更新模块,用于利用所述第一项集集合确定模块确定的第一项集集合更新用于标识获取的信息的项集集合。
19.如权利要求18所述的装置,其特征在于,所述第一更新模块,具体用于:
在第一项集集合中的第一项集包含在用于标识获取的信息的项集集合中时,利用所述第一项集集合中通过对应的第一信息熵以及第二信息熵标识的第一项集替换所述用于标识获取的信息的项集集合中的相应项集;
在第一项集集合中的第一项集未包含在用于标识获取的信息的项集集合中时,删除所述用于标识获取的信息的项集集合中的相应项集。
20.如权利要求18所述的装置,其特征在于,所述项集集合更新单元,还包括:
第二项集集合确定模块,用于在当前子时间段非产生所述数据的时间段中的最后一个子时间段时,确定对应的第一信息熵达到第二阈值的第二项集集合,其中所述第二项集集合中的第二项集通过对应的第一信息熵标识;
第二更新模块,用于利用所述第二项集集合确定模块确定的第二项集集合更新用于标识获取的信息的项集集合。
21.如权利要求20所述的装置,其特征在于,所述第二更新模块,用于:将第二项集集合中未包含在用于标识获取的信息的项集集合中的第二项集,加入所述用于标识获取的信息的项集集合中。
一种获取信息的方法及装置\n技术领域\n[0001] 本发明涉及数据处理领域,尤其涉及一种获取信息的方法及装置。\n背景技术\n[0002] 随着社会信息化程度不断提高,信息系统数据量不断膨胀,不同行业需要处理、分析大量并且不断更新的数据流。目前,各行业面临的问题是数据量非常大,但其中真正有价值的信息却很少,因此,如何从大量并且不断更新的数据中挖掘出有价值的信息以对后续业务进行指导,成为困扰各行业的难点。\n[0003] 数据挖掘就是为顺应从大量数据中获取有价值信息的需要应运而生的数据处理技术。数据挖掘又称数据库中的知识发现(knowledge discovery in database),是指从大量的不完全的、有噪声的、模糊的数据中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。数据挖掘工具能够对将来的趋势和行为进行预测,从而很好地支持人们的决策。\n[0004] 从大量数据中获取有价值的信息,目前通用的做法是利用关系数据库,具体过程为:将用于获取信息的大量数据统一加载到关系数据库中,然后在此基础上对加载的数据进行数据挖掘以求发现有用的信息。关系数据库是以关系模型为基础的数据库,该关系模型中定义了各种数据关系,即利用定义的关系来描述数据,其中,一个关系既可以用来描述一个实体及其属性,也可以用来描述实体间的联系。因此,根据关系数据库对数据进行处理,首先将数据源文件完成完整加载形成满足关系数据库范式检查的数据集合,然后对数据库表在组合属性上进行投影计算,得到计算统计值。在实际应用中,采用关系数据库从大量数据中获取信息,需要等待用于获取信息的全部数据产生完毕后再一次性加载到关系数据库中处理,使得在关系数据库中需要进行关系计算的数据量聚集,由此导致的问题在于:\n一方面,需要消耗大量的CPU、I/O、内存等系统资源,系统开销很大;另一方面,需要一次性处理的数据量庞大,处理过程需要耗费大量的时间,信息获取效率低。\n[0005] 综上所述,现有技术基于关系数据库从数据中获取信息,信息获取效率低,并且系统开销大。\n发明内容\n[0006] 有鉴于此,本发明实施例提供一种获取信息的方法及装置,采用该技术方案,一方面提高了信息获取的效率,另一方面降低了系统开销。\n[0007] 本发明实施例通过如下技术方案实现:\n[0008] 根据本发明实施例的一个方面,提供了一种获取信息的方法。\n[0009] 根据本发明实施例提供的获取信息的方法,预先确定用于获取信息的数据,并将产生所述数据的时间段划分为多个子时间段;\n[0010] 针对每个子时间段执行:\n[0011] 加载当前子时间段产生的数据;\n[0012] 确定加载的所述数据中由预先设定的至少一个数据属性组合得到的各项集对应的第一信息熵;\n[0013] 确定在当前子时间段之前的所有子时间段产生的数据中所述各项集对应的第二信息熵;\n[0014] 根据所述各项集对应的第一信息熵以及第二信息熵更新用于标识获取的信息的项集集合;\n[0015] 根据设定的待提取数据属性以及所述用于标识获取的信息的项集集合中各项集对应的数据属性,对所述用于标识获取的信息的项集集合中保存的项集进行分组处理。\n[0016] 根据本发明实施例的另一个方面,还提供了一种获取信息的装置。\n[0017] 根据本发明实施例提供的获取信息的装置,包括:\n[0018] 数据加载单元,用于确定用于获取信息的数据,并将产生所述数据的时间段划分为多个子时间段,并加载当前子时间段产生的数据;\n[0019] 第一信息熵确定单元,用于确定所述数据加载单元加载的所述数据中由预先设定的至少一个数据属性组合得到的各项集对应的第一信息熵;\n[0020] 第二信息熵确定单元,用于确定所述数据加载单元在当前子时间段之前的所有子时间段加载的数据中所述各项集对应的第二信息熵;\n[0021] 项集集合更新单元,用于根据所述第一信息熵确定单元确定的各项集对应的第一信息熵以及所述第二信息熵确定单元确定的第二信息熵更新用于标识获取的信息的项集集合;\n[0022] 分组处理单元,用于在分别根据所述各项集对应的第一信息熵以及第二信息熵更新用于标识获取的信息的项集集合后,根据设定的待提取数据属性以及所述用于标识获取的信息的项集集合中各项集对应的数据属性,对所述用于标识获取的信息的项集集合中保存的项集进行分组处理。\n[0023] 通过本发明实施例提供的上述至少一个技术方案,预先确定用于获取信息的数据,并将产生数据的时间段划分为多个子时间段,针对每个子时间段执行:加载当前子时间段产生的数据,确定加载的数据中由预先设定的至少一个数据属性组合得到的各项集对应的第一信息熵,确定在当前子时间段之前的所有子时间段产生的数据中各项集对应的第二信息熵,并根据各项集对应的第一信息熵以及第二信息熵更新用于标识获取的信息的项集集合。采用该技术方案,将用于获取信息的数据根据其产生时间划分为多个子时间段,一次只加载一个时间段的数据,基于该时间段内产生的数据更新用于标识获取的信息的项集集合,与现有技术相比,将从数据中获取信息的任务分布为多个执行,大大减少了每次处理的数据量,从而提高了信息获取的效率,并且降低了系统开销。\n[0024] 本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。\n附图说明\n[0025] 附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:\n[0026] 图1为本发明实施例一提供的获取信息的方法流程图一;\n[0027] 图2为本发明实施例一提供的确定第一信息熵的流程图;\n[0028] 图3为本发明实施例一提供的确定第二信息熵的流程图;\n[0029] 图4为本发明实施例一提供的更新用于标识获取的信息的项集集合的流程图;\n[0030] 图5为本发明实施例一提供的获取信息的方法流程图二;\n[0031] 图6为本发明实施例三提供的获取信息的方法流程图二;\n[0032] 图7为本发明实施例三提供的获取信息的方法流程图三;\n[0033] 图8为本发明实施例三提供的获取信息的方法流程图四;\n[0034] 图9为本发明实施例三提供的获取信息的方法流程图五;\n[0035] 图10为本发明实施例三提供的获取信息的方法流程图六;\n[0036] 图11为本发明实施例三提供的获取信息的方法流程图七;\n[0037] 图12为本发明实施例四提供的获取信息的方法流程图。\n具体实施方式\n[0038] 为了给出提高信息获取的效率以及减少系统开销的实现方案,本发明实施例提供了一种获取信息的方法及装置,以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。\n[0039] 实施例一\n[0040] 根据本发明实施例一,提供了一种获取信息的方法,该方法将用于获取信息的数据根据其产生时间划分为多个子时间段,一次只加载一个时间段的数据,基于该时间段内产生的数据更新用于标识获取的信息的项集集合,将从数据中获取信息的任务分布为多个执行以达到提高信息获取的效率以及降低系统开销的目的。\n[0041] 本发明实施例一提供的获取信息的方法中,需要预先确定用于获取信息的数据,并将产生该数据的时间段划分为多个子时间段。优选地,可以将产生该数据的子时间段划分为W个等时间间隔T的多个子时间段,其中,该时间间隔T大于等于估计得到的从每个子时间段中获取信息所需的时长,即保证在加载当前子时间段产生的数据之前,从上一子时间段产生的数据中获取信息完毕,根据该优选方式,避免了加载当前子时间段对应的数据后,由于上一子时间段对应的数据还未处理完毕(即还未从数据获取信息完毕)而导致当前子时间段对应的数据处理滞后的问题,从而能够保证数据处理的连续性,提高数据处理的效率。\n[0042] 应当理解,以上提供的划分子时间段的方法仅为本发明实施例一提供的优选实施方式,具体应用中,可以考虑系统处理能力以及具体的数据处理量等因素,灵活确定划分方式,此处不再一一列举。\n[0043] 在确定用于获取信息的数据以及完成子时间段的划分以后,本发明实施例一提供的获取信息的方法如图1所示,针对划分得到的每个子时间段执行如下步骤101至步骤\n104:\n[0044] 步骤101、加载当前子时间段产生的数据。\n[0045] 该步骤101中,在确定每个子时间段后,对该子时间段进行计时,当该子时间段结束后,意味着对应该子时间段的数据产生完毕,则记载当前子时间段产生的数据。实际应用中,可以通过时间控制器进行计时,并触发加载各子时间段产生的数据。\n[0046] 步骤102、确定加载的当前子时间段产生的数据中由预先设定的至少一个数据属性组合得到的各项集对应的第一信息熵。\n[0047] 在执行该步骤102之前,预先设定要获取信息的数据的数据属性,可以根据实际需要设置一个或多个数据属性,并由设置的数据属性组合得到项集。例如,特殊情况下,只设置一个数据属性,则对应的项集也为一个,该项集对应该数据属性;若设置N个数据属性(N大于等于2),则可对该N个数据属性进行组合得到多个分别对应不同数据属性的项集,例如,有3个数据属性A、B、C,则可以组合得到7种项集,该7个项集分别为:{A}、{B}、{C}、{A、B}、{B、C}、{A、C}、{A、B、C}。\n[0048] 该步骤102中,确定第一信息熵的具体过程将在后续实施例中详细说明,此处暂不描述。\n[0049] 步骤103、确定在当前子时间段之前的所有子时间段产生的数据中各项集对应的第二信息熵。\n[0050] 该步骤103中,若当前子时间段为第一个子时间段,则在当前子时间段之前的所有子时间段产生的数据中各项集对应的第二信息熵均为0。\n[0051] 该步骤103中,确定第二信息熵的具体过程将在后续实施例中详细说明,此处暂不描述。\n[0052] 步骤104、根据确定的各项集对应的第一信息熵以及第二信息熵更新用于标识获取的信息的项集集合。\n[0053] 该步骤103中,更新用于标识获取的信息的项集集合的具体过程将在后续实施例中详细说明,此处暂不描述。\n[0054] 至此,根据一个子时间段产生的数据更新用于标识获取的信息的项集集合的过程结束,即从当前子时间段产生的数据中获取信息完毕。上述流程中,步骤102和步骤103没有严格的执行顺序,实际应用中可以先执行步骤103再执行步骤102,或者并行执行。\n[0055] 本发明实施例一中,在确定用于获取信息的数据后,按照图1所述的流程依次对各子时间段产生的数据进行处理,从而完成从各子时间段产生的数据中获取信息的过程。\n[0056] 图1所述流程的步骤102中,确定加载的所述数据中每个项集对应的第一信息熵的过程,如图2所示,包括如下步骤:\n[0057] 步骤201、确定加载的数据中符合该项集对应的数据属性的数据量。\n[0058] 步骤202、确定加载的数据的总数据量。\n[0059] 步骤203、根据确定的符合该项集对应的数据属性的数据量以及总数据量,确定该项集对应的第一信息熵。\n[0060] 至此,确定一个项集对应的第一信息熵的过程结束。上述流程中,步骤201和步骤\n202没有严格的执行顺序,实际应用中可以先执行步骤202再执行步骤201,或者并行执行。\n[0061] 图2所示流程的步骤201以及步骤202中,数据的数据量可以为数据记录的条数,也可以为数据占用的存储空间大小。\n[0062] 图2所示流程的步骤203中,根据确定的符合该项集对应的数据属性的数据量以及所述总数据量,确定该项集对应的第一信息熵,包括:\n[0063] 确定符合该项集对应的数据属性的数据量与所述总数据量的比值;\n[0064] 利用该比值乘以对该比值取对数得到的值,将得到的乘积的负值确定为该项集对应的第一信息熵。\n[0065] 本发明实施例中,对该比值取对数可认为是运用对数函数进行区段扩散,因为此函数值为负,所以将得到的乘积的负值确定为该项集对应的第一信息熵。\n[0066] 图1所述流程的步骤103中,确定在当前子时间段之前的所有子时间段产生的数据中每个项集对应的第二信息熵的过程,如图3所示,包括如下步骤:\n[0067] 步骤301、确定当前子时间段之前的所有子时间段产生的数据中符合该项集对应的数据属性的数据量。\n[0068] 步骤302、确定当前子时间段之前的所有子时间段产生的数据的总数据量。\n[0069] 步骤303、根据所述符合该项集对应的数据属性的数据量以及所述总数据量,确定该项集对应的第二信息熵。\n[0070] 至此,确定一个项集对应的第二信息熵的过程结束。上述流程中,步骤301和步骤\n302没有严格的执行顺序,实际应用中可以先执行步骤302再执行步骤301,或者并行执行。\n[0071] 图3所示流程的步骤301以及步骤302中,数据的数据量可以为数据记录的条数,也可以为数据占用的存储空间大小。\n[0072] 图3所示流程的步骤303中,根据符合该项集对应的数据属性的数据量以及所述总数据量,确定该项集对应的第二信息熵,包括:\n[0073] 确定该符合该项集对应的数据属性的数据量与所述总数据量的比值;\n[0074] 利用该比值乘以对该比值取对数得到的值,将得到的乘积的负值确定为该项集对应的第二信息熵。\n[0075] 本发明实施例中,对该比值取对数可认为是运用对数函数进行区段扩散,因为此函数值为负,所以将得到的乘积的负值确定为该项集对应的第二信息熵。\n[0076] 图1所述流程的步骤104中,根据确定的各项集对应的第一信息熵以及第二信息熵更新用于标识获取的信息的项集集合的过程,如图4所示,包括如下步骤:\n[0077] 步骤401、确定对应的第一信息熵以及第二信息熵之和达到第一阈值的第一项集集合,其中第一项集集合中的第一项集通过对应的第一信息熵以及第二信息熵标识;\n[0078] 步骤402、利用确定的第一项集集合更新用于标识获取的信息的项集集合。\n[0079] 至此,根据确定的各项集对应的第一信息熵以及第二信息熵更新用于标识获取的信息的项集集合的过程结束。\n[0080] 图4所示流程的步骤402中,利用确定出的第一项集集合更新用于标识获取的信息的项集集合的过程,具体包括:\n[0081] 若第一项集集合中的第一项集包含在用于标识获取的信息的项集集合中,则利用该第一项集集合中通过对应的第一信息熵以及第二信息熵标识的第一项集替换该用于标识获取的信息的项集集合中的相应项集;\n[0082] 若第一项集集合中的第一项集未包含在用于标识获取的信息的项集集合中,则删除该用于标识获取的信息的项集集合中的相应项集。\n[0083] 进一步地,若当前子时间段非产生所述数据的时间段中的最后一个子时间段,则上述步骤104中,即根据各项集对应的第一信息熵以及第二信息熵更新用于标识获取的信息的项集集合,还包括:\n[0084] 确定对应的第一信息熵达到第二阈值的第二项集集合,其中第二项集集合中的第二项集通过对应的第一信息熵标识;\n[0085] 利用所述第二项集集合更新用于标识获取的信息的项集集合。\n[0086] 其中:利用所述第二项集集合更新用于标识获取的信息的项集集合,包括:\n[0087] 将第二项集集合中未包含在用于标识获取的信息的项集集合中的第二项集,加入所述用于标识获取的信息的项集集合中。\n[0088] 通过以上实施例对本发明提供的技术方案中从数据中获取信息的过程进行了详细的描述,为更好地理解本发明实施例,以下进一步结合针对用于获取信息的数据为用户话单记录时的完整处理过程进行说明。\n[0089] 在执行本发明实施例一提供的获取信息的方法之前,进行如下设置:\n[0090] 设定项集隐含信息熵阈值Ep0,其中,隐含信息熵对应以上所述的第一信息熵,阈值Ep0对应以上所述的第二阈值;\n[0091] 设定项集信息熵阈值Ep,其中,信息熵即隐含信息熵和累计信息熵之和,累计信息熵对应以上所述的第二信息熵,阈值Ep对应以上所述的第一阈值;\n[0092] 设定时间窗口数|W|,其中,时间窗口对应以上所述的子时间段,用于对各子时间段进行计时,即时间窗口的滑动时间间隔对应子时间段的时间间隔;\n[0093] 设定时间窗口库表,分别与设定的时间窗口对应,用于加载对应时间窗口内产生的数据;\n[0094] 设定输出潜在频繁项集集合ITEM,其中,集合中的每个项集可通过三元组{项集、累计信息熵、隐含信息熵}表示,该潜在频繁项集集合ITEM对应以上所述的用于标识获取的信息的项集集合。\n[0095] 以上设置过程中,阈值Ep0可以参考如下因素设置:\n[0096] 1、对项集的所有隐含信息熵的概率分布区间进行分段(p′i,i=1,2,...,n),然后在按照如下公式得到项集隐含信息熵阈值Ep0:\n[0097] \n[0098] 其中:\n[0099] 项集的所有隐含信息熵的概率分布区间,即表示所有项集的隐含信息熵的分布,区间的端点分别为项集的所有隐含信息熵的最小值以及最大值;\n[0100] 对项集的所有隐含信息熵的概率分布区间进行分段,即将确定的概率分布区间划分为多个子区间段,子区间段个数可以根据实际的概率分布区间长度确定,例如,概率分布区间为[0,0.5],则可以将该概率分布区间为划分为5个子区间段,每个子区间段长度为\n0.1;\n[0101] p′i为第i个子区间段的右边端点,n为子区间段的个数。\n[0102] 2、对稳态情况下(各时间窗口均已加载运算),对项集的所有累计信息熵的概率分布区间进行分段(pi″,i=1,2,...,n),然后在按照如下公式得到项集信息熵阈值:\n[0103] \n[0104] 其中:\n[0105] pi″为第i个子区间段的右边端点,n为子区间段的个数。\n[0106] 在完成以上设置后,如图5所示,从数据中获取信息,主要包括如下步骤501至步骤508:\n[0107] 步骤501、初始频繁候选项集ITEM为空,启动并发加载程序,完成第一个时间窗口库表用户话单记录的导入。\n[0108] 步骤502、按照数据源属性控制发生器选定的属性,计算各属性组合得到的各项集的隐含信息熵,并将隐含信息熵≥Ep0的项集item1t以(item1t,0,隐含信息熵)的形式并入ITEM。\n[0109] 该步骤502中,计算隐含信息熵通过如下公式:\n[0110] 隐含信息熵=-pi ln pi(特别的,pi=0,则隐含信息熵为0)。\n[0111] 其中:pi=在当前时间窗口该项集对应的数据量/当前时间窗口对应的数据总量。\n[0112] 该步骤502中,数据源属性控制发生器选定的属性即预先定义好用于获取信息的数据属性。\n[0113] 该步骤502中,计算各属性组合得到的各项集的隐含信息熵的过程即通过上述步骤102计算各项集第一信息熵的过程,该过程已在上述实施例中详细描述,此处不再赘述。\n[0114] 步骤503、时间窗口滑动,完成下一个时间窗口库表用户话单记录的导入,并将下一时间窗口库表确定为当前时间窗口库表。\n[0115] 步骤504、根据当前时间窗口库表中的数据,按照数据源属性控制发生器选定的属性,计算各属性组合得到的各项集的隐含信息熵。\n[0116] 步骤505、将步骤504计算得到的隐含信息熵≥Ep0并且未包含在ITEM中的项集itemit以(itemit,0,隐含信息熵)的形式并入ITEM。\n[0117] 步骤506、对于ITEM中的项集,计算各项集的累计信息熵,将累计信息熵与对应当前时间窗口的隐含信息熵之和≥Ep的项集itemt,以(itemt,累计信息熵,当前时间窗口的隐含信息熵)替换ITEM中的相应项集;否则,在ITEM中删除该项集itemt。\n[0118] 步骤506中,计算累计信息熵通过如下公式:\n[0119] 累计信息熵=-pi-11npi-1(特别地,pi-1=0,则累计信息熵为0);\n[0120] 其中:pi-1=在当前时间窗口之前该项集对应的数据总量/在当前时间窗口之前对应的数据总量。\n[0121] 具体地,上述步骤502和步骤506中,数据量可以通过话单记录的条数表示。\n[0122] 步骤507、当前时间窗口库表项集处理完毕,转入步骤步骤503,直到所有子时间段对应的数据均处理完毕。\n[0123] 特别地,该步骤507中,当时间滑动窗口数﹥|W|时,按照队列结构替换最靠前时间窗口库表,即将第一个时间窗口库表中的数据删除,将当前第|W|+1个子时间段的数据导入第一个时间窗口库表,依次类推。\n[0124] 步骤508、时间窗口滑动结束,输出潜在频繁项集集合ITEM。\n[0125] 根据图5所示的流程,首先将实时数据流导入第1个时间窗口库表,对属性控制发生器输出的至少一个数据属性组合得到的每一个项集item1t,计算隐含信息熵,将满足隐含信息熵≥Ep0的项集三元组并入ITEM;接着在第2个子时间段对应的数据导入时刻,完成第\n2个时间窗口库表用户话单数据流的导入,依第1个时间窗口库表处理方法一样,先计算出第2个时间窗口库表中属性控制发生器输出的至少一个数据属性组合得到的每一个项集的隐含信息熵,将不包含在ITEM中的项集并入ITEM,并进一步计算累计信息熵,将满足(累计信息熵+当前时间窗口隐含信息熵)≥Ep的项集三元组替换原有频繁候选项集三元组,否则,在ITEM中删除该频繁候选项集三元组。重复该过程,直到处理完毕第|W|个时间窗口库表,此时将数据流时间窗口库表全部导入数据完毕。即从确定的用于获取信息的数据中获取信息完毕。\n[0126] 在下一个数据流导入时刻,即确定出新的用于获取信息的数据并进行处理时,清空历史时刻最久的时间窗口库表(此时为第1个时间窗口库表,以此类推),将最新数据流导入该时间窗口库表。\n[0127] 上述过程通过在各滑动时间窗口下对各项集的信息熵进行计算,从而确定潜在频繁项集集合ITEM,达到了在连续时间窗口挖掘频繁项集,但又基本保持了在全局数据库进行知识发现结果的目的。此算法大大节约了获取信息的复杂度。\n[0128] 下面以通信领域中的语言数据挖掘处理为例来详细说明一实施例,假设在数据库表中设置5个临时表(分别对应时间窗口表:time_win1、time_win2…time_win5,|W|=5),获取信息的主要过程如下:\n[0129] 1、通过6个通道并发导入3万用户话单清单到第1个时间窗口临时表time_win1;\n[0130] 2、根据属性控制器输出的客户品牌,通话次数、通话类型、通话小区、通话时长均值等数据属性,计算各数据属性组合得到的项集的隐含信息熵,如:组合得到的一个项集为:全球通奥运88客户_88(客户品牌)_本地通话(通话类型)_23005_03133(通话小区编码)_300~600sec(通话时长均值),此项集在该基站小区(群)话单清单中出现120次,该基站小区(群)在此时间窗口总通话清单记录为2500条,则在此时间窗口,此属性组合隐含信息熵=-(120/2500)ln(120/2500)=0.146,如果取Ep0=0.12,则可以将该项集“全球通奥运88客户_88_本地通话_23005_03133(通话小区编码)_300~600sec”并入ITEM;\n[0131] 3、间隔10分钟(设置的时间窗口长度)后,导入新产生的3万客户语音清单到第2个时间窗口临时表time_win2;\n[0132] 4、根据属性控制器输出的客户品牌,通话次数、通话类型、通话小区、通话时长均值等数据属性,计算各种属性组合得到的项集的隐含信息熵,对于计算得到的隐含信息熵≥Ep0且未包含在ITEM中的项集itemit,则将(itemit,0,隐含信息熵)并入ITEM,如:第2个时间窗口临时表time_win2中的项集“动感地带标准客户_156_本地通话_23014_04165(通话小区编码)_0~300sec”不包含在ITEM中,但此项集的隐含信息熵≥Ep0,则此属性组合项并入ITEM。\n[0133] 对于已经存在于ITEM中每一个项集itemit,计算各项集的累计信息熵,且利用(累计信息熵+当前时间窗口隐含信息熵)≥Ep的项集更新ITEM中的相应项集,否则删除ITEM中(累计信息熵+当前时间窗口隐含信息熵)<Ep的项集。如:“全球通奥运88客户_88_本地通话_23005_03133(通话小区编码)-_300~600sec”在第2个时间窗口上隐含信息熵=-(180/2500)ln(180/2500)=0.189438,则此属性组合累计信息熵+隐含信息熵=\n0.146+0.18。在此注意这是第2个窗口,累计信息熵可以直接引用第1个窗口的隐含信息熵,但如果是第2、3、4、5个窗口,则需要依据累计信息熵的计算公式计算。\n[0134] 根据上述过程,就可以有效保持ITEM中项集的更新。\n[0135] 5、依次类推到计算完成5个窗口。\n[0136] 则对此次获取信息的数据处理完毕,若需要处理下一批获取信息的数据,即认为第6个时间间隔到来,则将占据时间最久的第一个窗口time_win1清空,导入第6个时间窗口客户清单,再依据以上第4步骤更新ITEM,直至数据流截止。\n[0137] 实施例二\n[0138] 根据本发明实施例二,提供了一种获取信息的方法,该获取信息的方法在上述实施例一的基础上,对根据上述实施例一得到的用于标识获取的信息的项集集合进行了优化。\n[0139] 具体地,在利用上述实施例一提供的方法,分别根据各项集对应的第一信息熵以及第二信息熵更新用于标识获取的信息的项集集合(即上述步骤104)后,还进一步执行如下步骤:\n[0140] 根据设定的待提取数据属性以及用于标识获取的信息的项集集合中各项集对应的数据属性,对该用于标识获取的信息的项集集合中保存的项集进行分组处理。\n[0141] 根据该实施例二提供的技术方案,在经过上述实施例对用于获取信息的数据进行处理(称为一级处理)后,得到满足信息熵条件的潜在频繁项集集合ITEM,此时根据数据流分析的要求将ITEM项集进一步分类萃取出实际意义较大的频繁项集(称为二级处理),从而更直观地展现获取的信息。也可将此分析结果总结为数据知识融入专用知识库,以进一步促进数据流潜在频繁项集(即有价值信息)的知识发现。\n[0142] 例如,经过一级处理得到的潜在频繁项集集合ITEM中的信息如下表所示:\n[0143] \n[0144] 对以上显性化的规则基础知识进行知识外化处理,即:建立一个文件管理系统根据知识需求群体分类框架或者标准进行分类组织和存储,以识别各项集之间的包含知识的相似之处,得到知识外化处理后的项集存储文件组织形式,如下表所示:\n[0145] \n[0146] 其中:Class_1、……Class_M分别对应不同的数据属性,可以为一个数据属性,也可以为多个数据属性的组合,具体数据属性根据业务需求确定。\n[0147] 按照知识需求群体分类框架进行分类组织、存储的项集初步形成了满足不同知识需求者的决策支持知识,达成了实时、有效的知识生成的功效。并且此时获取的分类项集可以经过内化处理,即:将初步获取的决策支持知识与专用知识库历史知识进行融和、更新,增加项集更多有效的附加、复合知识的描述。在IT系统中,则着重于非结构化信息在专用知识库中以层次结构、列表结构组织和存储,并辅以适当的知识语意描述展现给不同的知识需求者。\n[0148] 根据本发明实施例一以及实施例二得到的ITEM中包括的项集可以对于后续的业务进行指导。例如,ITEM中包括的项集:\n[0149] 全球通奥运88客户_88_本地通话_23005_03133(通话小区编码)_300~\n600sec;\n[0150] 全球通奥运88客户_356_本地通话_23005_03133(通话小区编码)_2300~\n300sec;\n[0151] 在这两个项集中,可以得到在指定的时间段内全球通奥运88套餐客户在指定的基站小区内通话时长对比的一个情况,对于业务人员来说获取了在指定地点同一套餐客户通话时长对比情况,便于指导其设计套餐产品时赠送通话时长的区间划分。\n[0152] 上述仅为一个简单的例证,实际应用中,可以根据具体业务需求灵活参考得到的ITEM中的信息进行后续业务调整。如,对于网管人员则可以通过包括基站小区通话量和基站设备利用率数据属性组合的项集,以获取基站小区扩容计划参考信息等等,此处不再一一列举。\n[0153] 实施例三\n[0154] 与上述实施例一对应,本发明实施例三提供了一种获取信息的装置,如图6所示,该获取信息的装置包括:\n[0155] 数据加载单元601、第一信息熵确定单元602、第二信息熵确定单元603以及项集集合更新单元604;\n[0156] 其中:\n[0157] 数据加载单元601,用于确定用于获取信息的数据,并将产生所述数据的时间段划分为多个子时间段,并加载当前子时间段产生的数据;\n[0158] 第一信息熵确定单元602,用于确定数据加载单元601加载的所述数据中由预先设定的至少一个数据属性组合得到的各项集对应的第一信息熵;\n[0159] 第二信息熵确定单元603,用于确定数据加载单元601在当前子时间段之前的所有子时间段加载的数据中所述各项集对应的第二信息熵;\n[0160] 项集集合更新单元604,用于根据第一信息熵确定单元602确定的各项集对应的第一信息熵以及第二信息熵确定单元603确定的第二信息熵更新用于标识获取的信息的项集集合。\n[0161] 如图7所示,本发明优选实施例中,图6所示装置包括的数据加载单元601,可以具体包括:\n[0162] 时间段划分模块601A,用于确定用于获取信息的数据,将产生所述数据的时间段划分为等时间间隔的多个子时间段;其中,所述时间间隔大于等于估计得到的从每个子时间段中获取信息所需的时长;\n[0163] 加载模块601B,用于对时间段划分模块601A划分的各个子时间段进行计时,在当前子时间段结束后,加载当前子时间段产生的数据。\n[0164] 如图8所示,本发明优选实施例中,图6所示装置包括的第一信息熵确定单元602,包括:\n[0165] 第一数据量确定模块602A,用于确定加载的所述数据中符合该项集对应的数据属性的数据量以及加载的所述数据的总数据量;\n[0166] 第一信息熵确定模块602B,用于根据第一数据量确定模块602A确定的符合该项集对应的数据属性的数据量以及所述总数据量,确定该项集对应的第一信息熵。\n[0167] 进一步地,图8所示的第一信息熵确定模块602B,具体用于:\n[0168] 确定所述符合该项集对应的数据属性的数据量与所述总数据量的比值;\n[0169] 利用所述比值乘以对所述比值取对数得到的值,将得到的乘积的负值确定为该项集对应的第一信息熵。\n[0170] 如图9所示,本发明优选实施例中,图6所示装置包括的第二信息熵确定单元603,包括:\n[0171] 第二数据量确定模块603A,用于确定当前子时间段之前的所有子时间段产生的数据中符合该项集对应的数据属性的数据量以及当前子时间段之前的所有子时间段产生的数据的总数据量;\n[0172] 第二信息熵确定模块603B,用于根据第二数据量确定模块603A确定的符合该项集对应的数据属性的数据量以及所述总数据量,确定该项集对应的第二信息熵。\n[0173] 进一步地,图9所示的第二信息熵确定模块603B,具体用于:\n[0174] 确定所述符合该项集对应的数据属性的数据量与所述总数据量的比值;\n[0175] 利用所述比值乘以对所述比值取对数得到的值,将得到的乘积的负值确定为该项集对应的第二信息熵。\n[0176] 如图10所示,本发明优选实施例中,图6所示装置包括的项集集合更新单元604,包括:\n[0177] 第一项集集合确定模块604A,用于确定对应的第一信息熵以及第二信息熵之和达到第一阈值的第一项集集合,其中所述第一项集集合中的第一项集通过对应的第一信息熵以及第二信息熵标识;\n[0178] 第一更新模块604B,用于利用第一项集集合确定模块604A确定的第一项集集合更新用于标识获取的信息的项集集合。\n[0179] 进一步地,图10所示的第一更新模块604B,具体用于:\n[0180] 在第一项集集合中的第一项集包含在用于标识获取的信息的项集集合中时,利用所述第一项集集合中通过对应的第一信息熵以及第二信息熵标识的第一项集替换所述用于标识获取的信息的项集集合中的相应项集;\n[0181] 在第一项集集合中的第一项集未包含在用于标识获取的信息的项集集合中时,删除所述用于标识获取的信息的项集集合中的相应项集。\n[0182] 如图11所示,本发明优选实施例中,图10所示装置包括的项集集合更新单元604,还包括:\n[0183] 第二项集集合确定模块604C,用于在当前子时间段非产生所述数据的时间段中的最后一个子时间段时,确定对应的第一信息熵达到第二阈值的第二项集集合,其中所述第二项集集合中的第二项集通过对应的第一信息熵标识;\n[0184] 第二更新模块604D,用于利用所述第二项集集合确定模块确定的第二项集集合更新用于标识获取的信息的项集集合。\n[0185] 进一步地,图11所示的第二更新模块604D,用于:\n[0186] 将第二项集集合中未包含在用于标识获取的信息的项集集合中的第二项集,加入所述用于标识获取的信息的项集集合中。\n[0187] 应当理解,以上获取信息的装置包括的单元以及模块仅为根据该终端实现的功能进行的逻辑划分,实际应用中,可以进行上述单元以及模块的叠加或拆分。并且该实施例三提供的获取信息的装置所实现的功能与上述实施例一提供的获取信息的方法流程一一对应,对于该装置所实现的更为详细的处理流程,在上述实施例一中已做详细描述,此处不再详细描述。\n[0188] 实施例四\n[0189] 与上述实施例二对应,本发明实施例四提供了一种获取信息的装置,如图12所示,该获取信息的装置在上述实施例三提供的图6所示装置的基础上,进一步包括:\n[0190] 分组处理单元605,该单元用于在分别根据所述各项集对应的第一信息熵以及第二信息熵更新用于标识获取的信息的项集集合后,根据设定的待提取数据属性以及所述用于标识获取的信息的项集集合中各项集对应的数据属性,对所述用于标识获取的信息的项集集合中保存的项集进行分组处理。\n[0191] 应当理解,以上获取信息的装置包括的单元以及模块仅为根据该终端实现的功能进行的逻辑划分,实际应用中,可以进行上述单元以及模块的叠加或拆分。并且该实施例四提供的获取信息的装置所实现的功能与上述实施例二提供的获取信息的方法流程一一对应,对于该装置所实现的更为详细的处理流程,在上述实施例二中已做详细描述,此处不再详细描述。\n[0192] 本发明实施例中,上述实施例三以及实施例四提供的获取信息的装置可以在单机中部署,例如小型的网络环境或者测试系统;也可以在集群中部署,例如大中型的网络环境,可以将进行一级处理的单元(即实施例三中包括的单元)分别部署在每个处理节点中,可将进行二级处理单元(即实施例四中进一步包括的单元)部署在管理节点中。\n[0193] 通过本发明实施例提供的上述至少一个技术方案,预先确定用于获取信息的数据,并将产生数据的时间段划分为多个子时间段,针对每个子时间段执行:加载当前子时间段产生的数据,确定加载的数据中由预先设定的至少一个数据属性组合得到的各项集对应的第一信息熵,确定在当前子时间段之前的所有子时间段产生的数据中各项集对应的第二信息熵,并根据各项集对应的第一信息熵以及第二信息熵更新用于标识获取的信息的项集集合。采用该技术方案,将用于获取信息的数据根据其产生时间划分为多个子时间段,一次只加载一个时间段的数据,基于该时间段内产生的数据更新用于标识获取的信息的项集集合,与现有技术相比,将从数据中获取信息的任务分布为多个执行,大大减少了每次处理的数据量,从而提高了信息获取的效率,并且降低了系统开销。\n[0194] 显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
法律信息
- 2013-06-26
- 2012-05-23
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201010292828.0
申请日: 2010.09.25
- 2012-04-11
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2009-07-29
|
2009-03-11
| | |
2
| | 暂无 |
2000-03-30
| | |
3
| |
2006-05-10
|
2005-10-17
| | |
4
| |
2009-03-04
|
2008-09-26
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |