著录项信息
专利名称 | 海量数据处理中多线程工作包并行的ETL技术 |
申请号 | CN200610106551.1 | 申请日期 | 2006-07-12 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2007-01-17 | 公开/公告号 | CN1897025 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06Q10/00 | IPC分类号 | G;0;6;Q;1;0;/;0;0;;;G;0;6;F;9;/;4;6;;;G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 南京联创科技股份有限公司 | 申请人地址 | 江苏省南京市定淮门12号16楼
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 南京联创科技集团股份有限公司 | 当前权利人 | 南京联创科技集团股份有限公司 |
发明人 | 赵懿敏;李捷;曹小华;郭景东;沈晓军;魏凌;陈松乐 |
代理机构 | 南京天翼专利代理有限责任公司 | 代理人 | 汤志武;王鹏翔 |
摘要
海量数据处理中多线程工作包并行的ETL方法,对大量企业数据进行处理时采用的数据抽取、转换和装载,设有一系列相互衔接、自动进行的业务活动或任务的工作流,工作流遵循路由、规则和任务或操作;其中路由:定义对象及其传送所通过的路径;规则:定义信息的路由及路由隶属;规则包括流向控制条件与异常情况处理;任务或操作:定义工作流在面向某种状态、某种事务或某一工作组的具体操作;将调度对象分为任务、子任务、工作包三个级别,工作包是可调度的最小单位。每个工作包是各种具体操作的集合,工作包的功能由其中的具体操作完成;工作包有输入数据结构和输出数据结构,每个数据结构可具体定义数据项。
1.海量数据处理中多线程工作包并行的ETL方法,其中ETL为对大量企业数据进行处理时采用的数据抽取、转换和装载,其特征是设有一系列相互衔接、自动进行的业务活动或任务的工作流,工作流遵循3R准则,即路由ROUTER、规则RULE和任务ROLES;其中路由:定义对象及其传送所通过的路径;规则:定义信息的路由及路由隶属,规则包括流向控制条件与异常情况处理;任务:定义工作流在面向某种状态、某种事务或某一工作组的具体操作;
将调度对象分为任务、子任务、工作包三个级别,工作包是可调度的最小单位;每个工作包是各种具体操作的集合,工作包的功能由其中的具体操作完成;工作包有输入数据结构和输出数据结构,每个数据结构可具体定义数据项,工作包中各项操作是对输入数据结构的数据项进行操作,输出为输出数据结构数据项;一个子任务中的工作包之间有关联,工作包有前置工作包和后续工作包,任务又包括了子任务的集合与关联;子任务是任务中某个功能阶段的划分,分为:实时运行子任务、定时运行子任务、手工触发子任务;工作包是比子任务更小一级的调度对象,隶属于子任务;
每个任务对应一个线程,通过多线程的并发运行,从而实现了多任务可以同时运行,同时每个任务中的子任务、工作包根据预先设定的条件自行运行;
数据结构中包含对每个数据项的具体描述,包括数据项名、数据项类型、数据项序号;
每个工作包都有一个输入数据结构和输出数据结构,工作包的所有操作都是对输入数据结构的数据项的操作,然后形成工作包输出数据结构的数据项,对工作包的操作为对数据结构的转换:将输入数据结构转换为输出数据结构。
海量数据处理中多线程工作包并行的ETL技术\n技术领域\n[0001] 本发明涉及电信运营商数据仓库应用,尤其是海量数据处理中多线程工作包并行的ETL技术。\n背景技术\n[0002] ETL是对大量企业数据进行处理时采用的数据抽取(Extract)、转换(Transform)和装载(Load)技术。随着企业数据量的剧增,ETL技术日益受到人们的重视。ETL产品的长足发展,是企业应用和技术发展共同推动的结果。\n[0003] ETL除了上述主要功能外,还要对自身处理进程进行调度和管理,另外一个重要因素就是扩展性,数据种类和来源随时都可能增加,理想的ETL解决方案要快速适应这些变化,满足用户的扩展需求。\n[0004] 第一代ETL工具,如CA InfoPump,Oracle SQL Loader,etc..没有集成化的开发环境和元数据交换,数据的抽取、加载和转化需要编写大量的脚本程序,同时要靠手工和外部作业调度来完成整个ETL过程。\n[0005] 第二代ETL工具,如Ardent(后被Informix收购,现在属Ascential Software公司)Data Stage,Oracle Warehouse Builder,以及Sagent等产品只是将数据转换引擎与元数据管理集成,并可利用内部的工作流定义自动化完成一般数据的抽取、转换和加载工作,但是没有数据仓库全过程的元数据集成和交换能力,对数据质量管理和异常处理的能力不高。\n[0006] 第三代数据仓库构建产品也称作为数据集成平台,或是ETL集成环境,而不是简单的单点工具,在这一类别里,Informatica PowerCenter,Ascential Software Data StageXE以及IBM Warehouse Manager(原称Visual Warehouse)都是可选的数据集成平台。\n[0007] 但是以上这些ETL工具,在多线程并发、自身的调度、管理、数据质量审核与监控以及系统的可扩展性上都尚有一些不足,不能完全满足用户对ETL技术的要求。\n[0008] 线程是操作系统的一种新概念,它又被称作轻量进程,是比传统进程更小的可并发执行的单位。C和C++采用单线程,.Java在两方面支持多线程。一方面,Java环境本身就是多线程的。若干个系统线程运行负责必要的无用单元回收,,多线程是Java语言的一大特性,多线程就是同时存在N个执行体,按几条不同的执行线索共同工作的情况。程序,进程,线程,可以从不同的角度去理解。程序就是一段静态的代码,可以理解成一组计算机命令的集合进行就是这个程序一次动态过程。\n[0009] 如已经在专利公开中的文件中也包括了上述内容:CN200410095805.5数据处理方法和装置,将数据库从源计算机系统复制到目标计算机系统的方法,包括以下步骤:1)接收来自于源计算机系统的日志项;2)检查日志项,查看是否在动态索引中有一个输入项,它给出与一数据库项有关的处理信息,所述日志项与该数据库有关;以及3)如果在动态表中存在输入项,则按照相关的处理信息处理日志项;或者4)如果在动态索引中没有输入项,则在分配数据库中寻找数据库项的相关处理信息,建立输入项并在动态索引中存储,并且按照处理信息处理日志项。\n[0010] CN03822194.2用于处理数据处理系统中的线程的方法和装置,包括:检测和一个用户线程相关联的、不被该用户线程需要的内核线程;以及响应内核线程不被需要,半分离该内核线程,其中用于该线程的数据不改变堆栈。\n发明内容\n[0011] ETL对大量企业数据进行处理时采用的数据抽取(Extract)、转换(Transform)和装载(Load)的方法,在进行ETL设计时,我们引入了工作流的原理。工作流(WORK FLOW)就是自动运作的业务过程部分或整体,表现为参与者对文件、信息或任务按照规程采取行动,并令其在参与者之间传递。简单地说,工作流就是一系列相互衔接、自动进行的业务活动或任务。我们可以将整个业务过程看作是一条河,其中流过的就是工作流。\n[0012] 在工作流的运动过程中,根据处理过程和工作条件来调整工作流向。工作流遵循\n3R准则,即:路由(ROUTER)、规则(RULES)和任务(ROLES)。\n[0013] 路由:定义对象及其传送所通过的路径。\n[0014] 规则:定义信息的路由及路由隶属。规则包括流向控制条件与异常情况处理。\n[0015] 任务:定义工作流在面向某种状态、某种事务或某一工作组的具体操作。\n[0016] 经营分析系统的流程调度部分采用工作流的设计原理,对系统的后台流程进行控制和管理。定义了以下对象:\n[0017] 任务、子任务、工作包——RUTER;将调度对象分为任务、子任务、工作包三个级别,工作包是可调度的最小单位。每个工作包是各种具体操作的集合,工作包的功能由其中的具体操作完成。工作包有输入数据结构和输出数据结构,每个数据结构可具体定义数据项,工作包中各项操作是对输入数据结构的数据项进行操作,输出为输出数据结构数据项。一个子任务中的工作包之间可以有关联,工作包可以有前置工作包和后续工作包。任务又包括了子任务的集合与关联。\n[0018] 任务与子任务对应关系、子任务与工作包对应关系、工作包与操作的对应关系、前置子任务、后续子任务、前置工作包、后续工作包——RULES;操作——ROLES。\n[0019] 数据结构是对数据格式的定义,数据结构中包含对每个数据项的具体描述,包括数据项名、数据项类型、数据项序号。是工作包组成部分,每个工作包都有一个输入数据结构和输出数据结构,工作包的所有操作都是对输入数据结构的数据项的操作,然后形成工作包输出数据结构的数据项,对工作包的操作为对数据结构的转换:将输入数据结构转换为输出数据结构。\n[0020] 模型是描述ETL平台流程调度所需数据模型及其之间的关系。与其相关的几个概念:任务、子任务、工作包、操作。\n[0021] 1、配置数据结构,对每个数据项的具体描述,包括数据项名、数据项类型、数据项序号;\n[0022] 2.配置任务,配置任务名称和运行控制属性;\n[0023] 3.配置子任务\n[0024] 4、配置工作包工作包的功能由其中的具体操作完成;\n[0025] 操作是最小的处理单元,其作用是对输入数据结构的数据项进行相应处理,生成输出数据结构的数据项;工作包操作配置的每一步是配置工作包输入数据结构和工作包输出数据结构:通过拖拉完成操作完成工作包操作配置。\n[0026] 每个任务可以对应一个线程,通过多线程的并发运行,从而实现了多任务可以同时运行,同时每个任务中的子任务、工作包等可以根据预先设定的条件自行运行;通过对工作包信息点的监控,可以方便地对数据质量及任务的运新情况进行监控。\n[0027] 预先设定的软件完成设定的任务,如传送、对比或各工作线程之一的任务,工作包信息点的监控文件采用网络监控驱动模块。由于后台采用的面向对象的C++进行开发,前台采用JAVA进行开发,所以该ETL工具还具备跨平台的特性。\n[0028] 综上所述,本发明的ETL工具具有以下特点:\n[0029] ·支持多种UNIX平台外,包括支持windows平台。\n[0030] ·支持多种数据源和目的,包括多种数据库及文件;\n[0031] ·采用哈希算法,提高运行速度。本发明综合利用现有技术提供速度的办法除了程序自身外,还可以充分利用多CPU处理器特性,多线程并行处理,速度提高方面同样非常明显。字段数为26的文件处理速度在18000行/秒左右。\n[0032] ·插件体系,使扩展非常容易。\n[0033] ·提供了元数据管理接口。\n[0034] ·提供完善的数据审核功能\n附图说明\n[0035] 图1是本发明方法的定义结构和操作定义过程流程图即数据模型,[0036] 图2是本发明方法的任务和子任务流程图,\n[0037] 图3是本发明主界面构成图\n[0038] 图4是本发明数据结构创建向导图,整个分析系统的数据获取任务以此图示,[0039] 图5是本发明工作包内部流程图\n具体实施方式\n[0040] 本发明的实体说明见下表:\n[0041] \n序号 实体名称 说明\n1. 任务 描述任务的基本信息\n2. 前置任务 描述某一任务执行的前提条件,即,其前置的任\n3. 后续任务 描述某一任务执行成功后,可以开始执行的任务\n4. 任务执行状态 描述任务当前的执行状态信息\n5. 任务执行状态历史 描述任务执行状态变化的历史信息\n6. 子任务 描述子任务的基本信息\n7. 子任务后续子任务 描述某一子任务执行成功后,可以开始执行的子\n务\n8. 子任务前置子任务 描述某一子任务执行的前提条件,即,其前置的\n任务\n9. 子任务运行数 描述某一子任务可并行运行数信息\n10. 子任务执行状态 描述子任务的当前的执行状态信息\n11. 子任务执行状态历史 描述子任务执行状态变化的历史信息\n12. 工作包 描述工作包的基本信息,工作包是可以独立运行\n体的最小单位\n13. 前置工作包 描述某一子任务中,某一工作包执行的前提条件\n即,其前置的工作包\n14. 后续工作包 描述某一子任务中,某一工作包执行成功后,可\n开始执行的工作包\n15. 工作包类型 描述工作包类型的基本信息\n16. 工作包执行状态 描述工作包当前的执行状态信息\n17. 工作包执行状态历史 描述工作包执行状态变化的历史信息\n18. 附加信息定义 描述附加信息的基本信息\n19. 工作包可选附加信息 描述某一类型工作包可配置的附加信息\n20. 工作包运行附加信息 描述某一工作包配置的附加信息\n21. 操作定义 描述操作的基本信息\n22. 操作类型定义 描述操作类型的基本信息\n23. 工作包可执行操作 描述某一类型工作包可配置的操作\n24. 工作包执行操作 描述某一工作包配置的操作\n25. 数据结构 描述数据结构的基本信息\n26. 工作包输入输出数据结 描述与工作包相关的数据结构信息\n27. 数据结构数据项定义 描述某一数据结构的数据项信息\n28. 操作数据项 描述某一操作的数据项信息\n29. 代码转换对照关系 描述代码转换的基本信息\n30. 主题定义 描述前端展现的各分析主题信息\n31. 业务功能 描述分析系统分析与报表功能的信息\n32. 业务功能与子任务对应 描述前台业务分析功能与其相关的子任务的对应系 关系\n33. 状态定义 描述状态的基本信息\n34. 文件定义 描述相关的文件定义信息\n[0042] 为了统一控制整个数据获取与准备过程,达到自动流程调度的目的,将调度对象划分为不同级别,针对某个数据源的整个数据获取与准备过程称为一个任务,其下再分为有序的子任务,子任务下再分为工作包,工作包中含各个具体的操作。某一数据源的抽取、清洗、转换、装载、分析数据生成等都可细化为每个具体的操作。总体流程调度针对不同调度对象的配置规则,完成自动调度。对于每个数据获取子任务,需包含以下功能,如:数据抽取、数据转换、数据加载、分析数据生成等,这些功能并不完全是串行进行的,有些功能可以交叉进行,如:在进行数据抽取或数据加载的同时可进行数据转换工作。从处理效率上,我们尽量把功能相近的工作,组成一个工作包,将其合并在一起执行。工作包是最小执行单位。\n[0043] 整个分析系统的数据获取任务如图4所示,图中横列的任务(通过进程控制)是可以调整执行的先后顺序的,并且可以进行并行;工作包也是可以进行调度,并可以并行运行的(通过线程控制)。这样就实现了多进程与多线程的双重并行,大大提高了ETL程序的执行效率。\n[0044] 任务内部流程指任务内部子任务的执行顺序及判断逻辑,其流程图2如示。\n[0045] 不同的工作包内部流程不同,这里仅以文件转换工作包为例说明:如图5所示。为了便于逻辑上区分,将调度对象分为任务、子任务、工作包三个级别。任务是一个逻辑上的概念,主要目的是区分不同业务数据处理过程。子任务是任务中某个功能阶段的划分,各个任务可以根据其执行阶段的不同细分为各个明确的子任务,子任务按运行方式可以分为:\n实时运行子任务、定时运行子任务、手工触发子任务。工作包是比子任务更小一级的调度对象,隶属于子任务。工作包是可调度的最小单位,每个工作包是各种具体操作的集合,工作包的功能由其中的具体操作完成。工作包有输入数据结构和输出数据结构,每个数据结构可具体定义数据项,工作包中各项操作是对输入数据结构的数据项进行操作,输出为输出数据结构数据项。一个子任务中的工作包之间可以有关联,工作包可以有前置工作包和后续工作包。\n[0046] 数据结构是对数据格式的定义,数据结构中包含对每个数据项的具体描述,包括数据项名、数据项类型、数据项序号。虽然它不是直接可调度的对象,但却是工作包必不可少的组成部分,每个工作包都有一个输入数据结构和输出数据结构,工作包的所有操作都是对输入数据结构的数据项的操作,然后形成工作包输出数据结构的数据项,工作包的工作过程可以理解为对数据结构的转换:将输入数据结构转换为输出数据结构。\n[0047] 人机界面完成数据准备与获取平台中流程的配置和后台流程运行情况的前端展示。大致流程和界面分布如图3所示:\n[0048] 各操作界面功能如下:\n[0049] 1.主界面\n[0050] 大部分配置工作都在如上主界面中完成,在主界面中可以完成以下配置:\n[0051] 1)配置数据结构\n[0052] 2)配置任务\n[0053] 3)配置子任务\n[0054] 4)配置工作包\n[0055] 主界面的布局是:上侧为菜单和工具栏、左侧为对象窗口、右侧为配置窗口,配置窗口中分为以下几部分:左侧为工具栏、中间为配置桌面、下面为工作包类型工具栏。\n[0056] 1、配置数据结构\n[0057] 数据结构是很重要的一种对象,数据结构中包含对每个数据项的具体描述,包括数据项名、数据项类型、数据项序号。支持从库表或手工创建数据结构。\n[0058] 2.配置任务\n[0059] 任务是最高一级的调度对象,由于其只是为了便于逻辑上区分不同的处理过程,所以任务的属性比较简单,只需配置任务名称和运行控制属性。\n[0060] 3.配置子任务\n[0061] 子任务是任务中某个功能阶段的划分,各个任务可以根据其执行阶段的不同细分为各个明确的子任务,子任务可以有前置子任务和后续子任务。子任务根据触发方式的不同,可以分为:实时运行子任务、定时运行子任务、手工触发子任务。\n[0062] 如下界面配置子任务的运行方式:\n[0063] 4、配置工作包\n[0064] 工作包是比子任务更小一级的调度对象,隶属于子任务。工作包是可调度的最小单位,每个工作包是各种具体操作的集合,工作包的功能由其中的具体操作完成。\n[0065] 根据工作包功能,可以分为以下几种类型:\n[0066] 1)表抽取工作包\n[0067] 从指定库表中选择指定的字段生成数据文件。\n[0068] 2)FTP抽取工作包\n[0069] 从远程主机指定目录中获取数据文件到本地。\n[0070] 3)文件转换工作包\n[0071] 对定分隔符的数据文件进行处理,生成新数据文件。\n[0072] 4)表转换工作包\n[0073] 对库表的数据进行处理,生成数据到指定库表。\n[0074] 5)文件装载工作包\n[0075] 对定分隔符的数据文件进行处理,装载到指定库表。\n[0076] 6)存储过程调用工作包\n[0077] 调用指定的存储过程。\n[0078] 配置工作包主要包括配置工作包所包含的操作和工作包附加信息,工作包的具体处理过程由其所包含的操作完成。\n[0079] 操作是最小的处理单元,其作用是对输入数据结构的数据项进行相应处理,生成输出数据结构的数据项。不同类型可配置的操作不同,以文件转换工作包为例,可配置的操作如下:\n[0080] a)字段映射 b)字段合并\n[0081] c)截取子串 d)去除两端空格\n[0082] c)字段相加 f)字段相减\n[0083] g)字段相乘 h)字段相除\n[0084] i)字段替换 j)两端填充\n[0085] 工作包操作配置的每一步是配置工作包输入数据结构和工作包输出数据结构:通过拖拉完成操作完成工作包操作配置。\n[0086] 3.转换规则配置\n[0087] 转换规则定义一套旧值与新值的对应关系,在配置字段转换时可以选择已定义的转换规则作为转换标准,字段转换按配置的对应关系对输入数据结构的指定数据项进行转换,生成输出数据结构的指定数据项。转换规则配置界面如下:\n[0088] 4.填充规则配置\n[0089] 填充规则定义字段两填充时的规则,如填充位置、填充字符、填充长度,在配置字段填充时可以选择已定义的填充规则作为字符填充标准,填充规则配置界面如下:\n[0090] 5.基元信息配置\n[0091] 基元信息是工作包处理过程生成的基本信息单元,基元信息可分为一般基元信息、配置基元信息、性能基元信息、故障基元信息。基元信息配置界面如下:\n[0092] 不同类型的工作包可配置的基元信息不同,在配置工作时可以为工作包配置所需的基元信息,配置界面如下:\n[0093] 6.审核规则配置\n[0094] 为了校验工作包处理过程的准确性,可以对工作包处理过程进行审核,审核分为外部、工作包内部审核、工作包间审核。外部审核用于审核接收外部数据的工作包接受数据的准确性;工作包内部审核用于审核工作包处理过程的准确性;工作包间审核用于审核前后关联工作包间数据传送与接收的准确性。\n[0095] 审核规则配置界面如下:\n[0096] 7.对象运行状态监控\n[0097] 任务、子任务、工作包状态分为:运行、成功、失败、初始化。工具提供如下界面实时反映各级调度对象状态,便于实时监控,可实时停止或重新启动各调度对象。\n[0098] 工作包在运行过程会实时记录的基元信息,通过前台WEB界面反映各工作包的基元信息,以了解工作包运行过程中的具体信息。
法律信息
- 2022-06-24
未缴年费专利权终止
IPC(主分类): G06Q 10/00
专利号: ZL 200610106551.1
申请日: 2006.07.12
授权公告日: 2011.02.02
- 2011-02-02
- 2007-03-14
- 2007-01-17
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2000-05-17
|
1999-10-27
| | |
2
| |
2005-10-19
|
2005-04-13
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |