著录项信息
专利名称 | 一种分布式hadoop集群故障自动诊断修复系统 |
申请号 | CN201510650975.3 | 申请日期 | 2015-10-10 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2016-02-17 | 公开/公告号 | CN105337765A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | H04L12/24 | IPC分类号 | H;0;4;L;1;2;/;2;4查看分类表>
|
申请人 | 上海新炬网络信息技术有限公司 | 申请人地址 | 上海市青浦区外青松公路7548弄588号1幢1层R区113室
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 上海新炬网络信息技术股份有限公司 | 当前权利人 | 上海新炬网络信息技术股份有限公司 |
发明人 | 程永新;胡永;李京龙 |
代理机构 | 上海科律专利代理事务所(特殊普通合伙) | 代理人 | 袁亚军;金碎平 |
摘要
本发明公开了一种分布式hadoop集群故障自动诊断修复系统,包括集群文件系统监控模块:采集获取集群节点信息以及数据库文件;作业任务监控模块:采集作业和任务的信息;物理节点监控模块:监控每个物理节点的资源消耗信息;数据存储分析处理模块:将监控数据存储到数据库;设定监控告警规则,预先配置告警ID、级别及原因;自动修复模块:预先定义配置各类常见告警故障,并为每个告警故障定制预处理脚本,当监控巡检到故障发生时,对当前发生的故障与预先定义配置的告警故障进行匹配,并调用相应的预处理脚本完成故障的自动处理。本发明能够自动诊断修复系统故障,使维护变得更加简单,性能数据、节点状态更加清晰明确。
1.一种分布式hadoop集群故障自动诊断修复系统,其特征在于,包括:
集群文件系统监控模块:采集获取集群节点信息以及数据库文件;
作业任务监控模块:采集作业和任务的信息,并对作业任务进行控制管理,包括作业的开启和停止,对指定作业进行周期采样,以及对任务优先级进行管理;
物理节点监控模块:监控每个物理节点的资源消耗信息;
数据存储分析处理模块:对来自所述集群文件系统监控模块、作业任务监控模块和物理节点监控模块的监控数据进行结构化、统一化后存储到数据库;设定监控告警规则,预先配置告警ID、级别及原因;
自动修复模块:预先定义配置各类常见告警故障,并为每个告警故障定制预处理脚本,当所述数据存储分析处理模块监控巡检到故障发生时,对当前发生的故障与预先定义配置的告警故障进行匹配,并调用相应的预处理脚本完成故障的自动处理;
所述作业任务监控模块实时查看任务的信息,包括任务的状态、运行任务的开始和结束时间,任务的运行速度及任务所消耗的时间,记录整个任务运行日志,统计任务数目和条目;
所述数据存储分析处理模块包括:设置热点问题告警,对热点问题进行优先监控,同时建立预测模型,对故障进行预测;
所述数据存储分析处理模块对海量数据进行抽取、转换、分类和聚类、设定集群告警相关性,并根据关联规则对监控数据进行关联分析,定位故障所在。
2.如权利要求1所述的分布式hadoop集群故障自动诊断修复系统,其特征在于,所述集群文件系统监控模块包括:浏览文件记录、namenode日志记录、namenode运行情况、集群配置容量、DFS占用容量、非DFS占用容量、DFS的可使用容量、DFS已使用百分比、DFS可使用百分比、活节点数、死节点数、namenode的存储目录及类型状态。
3.如权利要求1所述的分布式hadoop集群故障自动诊断修复系统,其特征在于,所述集群文件系统监控模块包括:获取HDFS的实时数据和历史状态,根据HDFS信息浏览和定位相关文件,以及监控关闭或者打开所述相关文件时,各个磁盘已经使用和各个磁盘的总容量,剩余容量,文件名称和数目,以及文件的使用情况和历程。
4.如权利要求1所述的分布式hadoop集群故障自动诊断修复系统,其特征在于,所述作业任务监控模块控制集群任务概要信息,堆的大小,所占的比例,Map任务数,Reduce任务数以及各个节点上的任务数量值。
5.如权利要求1所述的分布式hadoop集群故障自动诊断修复系统,其特征在于,所述作业任务监控模块实时查看作业的状态,查询整个作业从开始工作到结束工作耗费的时间总和,对与指定任务的作业相关信息,显示完成的所有进度、总共要进行的任务总数、预计需要完成的任务数量、当前正在运行的任务数量、到目前为止已经完成的任务、没有成功运行的任务和已经终止的任务。
6.如权利要求1所述的分布式hadoop集群故障自动诊断修复系统,其特征在于,所述物理节点监控模块对hadoop集群中全部物理机进行分组,监控每个物理节点平均内存和CPU负载,并对物理节点之间监控信息共享。
7.如权利要求1所述的分布式hadoop集群故障自动诊断修复系统,其特征在于,还包括设置WEB界面对所述集群文件系统监控模块、作业任务监控模块、物理节点监控模块、数据存储分析处理模块以及自动修复模块的采集监控过程进行可视化展示。
一种分布式hadoop集群故障自动诊断修复系统\n技术领域\n[0001] 本发明涉及一种集群故障自动诊断修复系统,尤其涉及一种分布式hadoop集群故障自动诊断修复系统。\n背景技术\n[0002] 业界没有对hadoop集群监控发现问题后自动分析解决的方案,目前关于hadoop集群故障解决方法为预先配置好关键的运维监控指标,对hadoop集群及相关项目健康进行检查,同时对作业和任务执行进行分析,将监控信息暴露出来,维护人员登录web平台查看存在问题的节点及性能,并登录节点分析日志,修复集群。\n[0003] 现有技术的主要缺点如下:1、不能实现故障实时告警,配置好的每个监控指标需要维护人员登录到web平台查看有问题的节点;2、集群监控只能查看当前的监控数据,没有存储和历史查询功能,无法进行监控数据分析和建立预测模型;3、不能对监控数据进行自动分析及根据分析结果进行自动化修复,需要人工登录到问题节点分析错误日志,根据经验进行故障解决。\n发明内容\n[0004] 本发明所要解决的技术问题是提供一种分布式hadoop集群故障自动诊断修复系统,能够轻松有效地控制hadoop集群,使维护变得更加简单,性能数据、节点状态更加清晰明确,分析、发现、解决问题更加快速。\n[0005] 本发明为解决上述技术问题而采用的技术方案是提供一种分布式hadoop集群故障自动诊断修复系统,包括:\n[0006] 集群文件系统监控模块:采集获取集群节点信息以及数据库文件;\n[0007] 作业任务监控模块:采集作业和任务的信息,并对作业任务进行控制管理,包括作业的开启和停止,对指定作业进行周期采样,以及对任务优先级进行管理;\n[0008] 物理节点监控模块:监控每个物理节点的资源消耗信息;\n[0009] 数据存储分析处理模块:对来自所述集群文件系统监控模块、作业任务监控模块和物理节点监控模块的监控数据进行结构化、统一化后存储到数据库;设定监控告警规则,预先配置告警ID、级别及原因;\n[0010] 自动修复模块:预先定义配置各类常见告警故障,并为每个告警故障定制预处理脚本,当所述数据存储分析处理模块监控巡检到故障发生时,对当前发生的故障与预先定义配置的告警故障进行匹配,并调用相应的预处理脚本完成故障的自动处理。\n[0011] 上述的分布式hadoop集群故障自动诊断修复系统,其中,所述集群文件系统监控模块包括:浏览文件记录,namenode日志记录,namenode运行情况、集群配置容量、DFS占用容量、非DFS占用容量、DFS的可使用容量、DFS已使用百分比、DFS可使用百分比、活节点数、死节点数、namenode的存储目录及类型状态。\n[0012] 上述的分布式hadoop集群故障自动诊断修复系统,其中,所述集群文件系统监控模块包括:获取HDFS的实时数据和历史状态,根据HDFS信息浏览和定位相关文件,以及监控关闭或者打开所述相关文件时,各个磁盘已经使用和各个磁盘的总容量,剩余容量,文件名称和数目,以及文件的使用情况和历程。\n[0013] 上述的分布式hadoop集群故障自动诊断修复系统,其中,所述作业任务监控模块控制集群任务概要信息,堆的大小,所占的比例,Map任务数,Reduce任务数以及各个节点上的任务数量值。\n[0014] 上述的分布式hadoop集群故障自动诊断修复系统,其中,所述作业任务监控模块实时查看作业的状态,查询整个作业从开始工作到结束工作耗费的时间总和,对与指定任务的作业相关信息,显示完成的所有进度、总共要进行的任务总数,预计需要完成的任务数量,当前正在运行的任务数量、到目前为止已经完成,没有成功运行和已经终止的任务。\n[0015] 上述的分布式hadoop集群故障自动诊断修复系统,其中,所述作业任务监控模块实时查看任务的信息,包括任务的状态、运行任务的开始和结束时间,任务的运行速度及任务所消耗的时间,记录整个任务运行日志,统计任务数目和条目。\n[0016] 上述的分布式hadoop集群故障自动诊断修复系统,其中,所述物理节点监控模块对hadoop集群中全部物理机进行分组,监控每个物理节点平均内存和CPU负载,并对物理节点之间监控信息共享。\n[0017] 上述的分布式hadoop集群故障自动诊断修复系统,其中,所述数据存储分析处理模块包括:设置热点问题告警,对热点问题进行优先监控,同时建立预测模型,对故障进行预测。\n[0018] 上述的分布式hadoop集群故障自动诊断修复系统,其中,所述数据存储分析处理模块对海量数据进行抽取、转换、分类和聚类、设定集群告警相关性,并根据关联规则对监控数据进行关联分析,定位故障所在。\n[0019] 上述的分布式hadoop集群故障自动诊断修复系统,其中,还包括设置WEB界面对所述集群文件系统监控模块、作业任务监控模块、物理节点监控模块、数据存储分析处理模块以及自动修复模块的采集监控过程进行可视化展示。\n[0020] 本发明对比现有技术有如下的有益效果:本发明提供的分布式hadoop集群故障自动诊断修复系统,通过对集群健康指标、作业任务进行监控,进行智能分析预警,让管理员实时清楚节点状态、并准确发现节点上出现了什么问题,解决故障不能实时告警的缺陷;并能够定义配置好告警选项及相应解决办法,对监控告警数据进行自动化修复。此外,本发明能够存储集群监控数据,建立热点事件进行分析和监控,同时根据监控数据建立预测模型,可以对故障进行预测,解决监控告警数据不能进行智能分析的缺陷。\n附图说明\n[0021] 图1为本发明分布式hadoop集群故障自动诊断修复系统架构示意图。\n具体实施方式\n[0022] 下面结合附图和实施例对本发明作进一步的描述。\n[0023] 图1为本发明分布式hadoop集群故障自动诊断修复系统架构示意图。\n[0024] 请参见图1,本发明提供的分布式hadoop集群故障自动诊断修复系统,采用集群监控模块分别对集群文件系统、作业任务和物理节点分别进行监控,数据库和数据分析模块构成数据存储分析处理模块,从而形成集群文件系统监控模块、作业任务监控模块、数据存储分析处理模块和自动修复模块共五个模块,实现这五个小模块并将其在web中进行展现和管理,从而组成hadoop自动化监控运维平台,能够进行多方面监控、良好的报警机制、数据分析处理、自动化修复管理。\n[0025] 本发明实现一种hadoop集群健康指标采集、作业任务执行监控、自动化预警与修复的方法。通过此方法,根据预先配置好关键的运维监控指标可以对集群健康进行检查、作业和任务执行进行可视化分析;根据将监控数据转成到数据库进行分析处理,可以设置热点问题,对热点问题进行重点分析和监控,同时可以建立预测模型,对故障进行预测,提高运维效率;根据定义配置好告警选项和各类告警故障定制好自动化预处理,可以对监控告警数据进行自动化分析,自动化修复;极大的提高了运维的工作效率,为不懂hadoop运维的人提供系统入门的垫脚石,为hadoop管理提供了方便的集群管理工具。\n[0026] 本发明各模块主要功能及实现过程如下:\n[0027] 1、集群文件系统监控模块:\n[0028] 整个框架的基础是hadoop的分布式文件系统(HDFS),对集群节点信息以及各种文件的数据库进行具体的分析。\n[0029] 浏览文件记录,namenode日志记录,namenode运行情况,如成功运行及运行时间或者运行失败;\n[0030] 集群配置容量、DFS占用容量、非DFS占用容量、DFS的可使用容量、DFS已使用百分比、DFS可使用百分比、活节点数、死节点数、namenode的存储目录及类型和状态。\n[0031] HDFS的实时数据,历史状态功能,包括对集群监控后,实时能检测到HDFS信息,浏览和定位相关文件,以及关闭或者打开一个文件,各个磁盘已经使用和各个磁盘的总容量,剩余容量,文件名称和数目以及文件的使用情况和历程。\n[0032] 2、作业任务监控模块:\n[0033] 整个架构是对hadoop集群系统各种作业和任务进行监控,对作业监控功能进行管理、控制作业和任务的状态、采集作业和任务的信息。\n[0034] 控制集群任务概要信息,堆的大小,所占的比例,Map任务数,Reduce任务数,各个节点上的数量值和Map的各种任务的实施能力,还有Reduce任务实施能力。\n[0035] 实时查看job的状态和查询整个job从开始工作到结束工作耗费的时间总和,对与指定任务的作业相关信息,能够显示完成的所有进度、总共要进行的任务总数,预计需要完成的任务数量,此时此刻正在运行的任务数量、到目前为止已经完成,没有成功运行和已经终止的任务。\n[0036] 实时查看Task的信息,包括task的状态、运行task的开始和结束时间,task的运行速度及消耗task所消耗的时间,记录整个task运行日志,统计task数目和条目。\n[0037] 提供对作业任务进行控制管理,包括作业功能的开启和停止,对指定作业进行周期采样,job优先级进行管理。\n[0038] 3、物理节点监控模块:\n[0039] 物理节点监控模块结合hadoop集群特点,总结出集群物理机的监控,对物理节点之间监控信息共享,管理节点向集群任意节点获取监控数据、资源消耗信息。\n[0040] 对hadoop集群中全部物理机分组,监控到每个节点平均内存、CPU负载、网络统计信息通过web将不通节点监控数据展现出来,每隔一定时间将得到的监控信息存储到数据。\n[0041] 4、数据存储分析处理模块:\n[0042] 设定监控告警规则,预配置告警ID、级别及原因,将监控数据进行结构化、统一化存储到数据库,对海量数据进行抽取、转换与预配置信息进行智能分析,进行分类、聚类、关联规则、数据探索等建模任务,提供分析结果展示。\n[0043] 设置热点问题告警,对热点问题进行重点分析和监控,同时建立预测模型,对故障进行预测。\n[0044] 设定集群告警相关性,对监控数据进行关联分析,有效分析故障所在。\n[0045] 5、自动修复模块:\n[0046] 对故障事件进行收集,对定义配置好的各类告警选项,定制预处理手段,系统监控巡检到特定事件发生时,对故障根源自动自判断,进行故障的自动处理。\n[0047] 定期自动的对系统做日志的收集分析,记录系统运行状况,并通过阶段性的监控、分析和总结,定时提供集群的可用性、性能、系统资源利用状况分析报告。\n[0048] 下面给出某移动云存储集群namenode双机运行失败,采用本发明自愈过程的案例效果。\n[0049] 某日凌晨,云存储集群上连交换机IOS升级发生故障,集群网络中断约20分钟,网络恢复正常后,集群监控告警检测到namenode双机运行失败,进程全部退出,触发云存储业务功能使用全部失败。\n[0050] 监控数据将namenode日志和运行情况及失败时间、物理机运行日志,根据设定好的告警规则,将监控数据存储到数据库,数据存储分析处理模块对namenode日志数据进行抽取、转换,对告警故障关键点数据进行汇总:\n[0051] 1)主Namenode节点出现致命错误,无法记录日志到JournalNode节点,此错误会导致主Namenode进程退出;\n[0052] 2)备Namenode节点无法从主Namenode同步日志,在断定主Namenode退出后切换为新的主Namenode;\n[0053] 3)3分钟后,新的主Namenode出现致命错误,无法记录日志JournalNode节点,此错误导致新的主Namenode进程退出。\n[0054] 4)通过对告警故障关键数据与预配置的告警ID、级别及原因进行关联,判定原因为主备Namenode均无法同步日志到JournalNode节点,两个Namenode进程均退出,[0055] 对namenode进程丢失该类型故障系统已经定义好预处理手段,当数据存储分析处理模块判断原因为主备namenode节点无法同步日志JournalNode节点导致进程退出时,会触发namenode进程丢失类故障预处理工具,首先检查namenode节点与JournalNode节点连通性是否正常,如果不正常,发送短信邮件给运维管理人员,如果正常,进入namenode进程启动目录,执行启动脚本,同时监控启动过程,检测启动完毕后,执行命令检查进程是否存在,同时检测JournalNode能否收到日志,并触发云存储业务功能测试工具进行测试,并将恢复的结果通知运维人员。\n[0056] 整个自愈过程首先是对namenode日志信息进行监控,监控到的告警信息会按照规则存储到数据库,数据存储分析处理模块会对namenode告警数据与预配置好的告警手册进行关联,分析原因,同时自动修复模块对namenode进程丢失类型故障已经编写好相应的预处理工具,当数据存储分析处理模块判断出故障原因时会同时触发自动修复模块进行预处理。\n[0057] 综上所述,本发明从集群监控实现数据存储与分析处理,通过智能化分析预警,触发故障的自动处理;集群告警分析结果能关联告警预处理模块,对故障自动处理,避免集群出现故障,影响系统的正常运行。具体优点如下:1、监控数据智能化分析方法,可以使性能数据、节点状态更加明确,可以快速的分析、发现、解决问题,加强系统稳定性;2、自动化故障处理方法,降低了维护人员的专业要求,很大程度上降低故障发生概率;3、集群监控智能分析手段,让集群维护不再深奥难懂,海量存储监控数据,为后续对重点问题进行分析,建立预测模型,对故障进行预测判断奠定基础。\n[0058] 虽然本发明已以较佳实施例揭示如上,然其并非用以限定本发明,任何本领域技术人员,在不脱离本发明的精神和范围内,当可作些许的修改和完善,因此本发明的保护范围当以权利要求书所界定的为准。
法律信息
- 2018-10-12
- 2017-11-24
著录事项变更
申请人由上海新炬网络信息技术有限公司变更为上海新炬网络信息技术股份有限公司
地址由200063 上海市普陀区中山北路2000号中期大厦3楼B变更为201707 上海市青浦区外青松公路7548弄588号1幢1层R区113室
- 2016-03-16
实质审查的生效
IPC(主分类): H04L 12/24
专利申请号: 201510650975.3
申请日: 2015.10.10
- 2016-02-17
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2015-03-25
|
2014-11-04
| | |
2
| |
2014-06-04
|
2014-03-03
| | |
3
| |
2015-05-13
|
2013-11-05
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |