著录项信息
专利名称 | 集群监控处理系统及方法 |
申请号 | CN201410835782.0 | 申请日期 | 2014-12-23 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2015-03-25 | 公开/公告号 | CN104468282A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | H04L12/26 | IPC分类号 | H;0;4;L;1;2;/;2;6;;;H;0;4;L;2;9;/;0;8查看分类表>
|
申请人 | 携程计算机技术(上海)有限公司 | 申请人地址 | 上海市长宁区金钟路968号16号楼10楼
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 上海携程商务有限公司 | 当前权利人 | 上海携程商务有限公司 |
发明人 | 钱永超 |
代理机构 | 上海弼兴律师事务所 | 代理人 | 薛琦;王婧荷 |
摘要
本发明公开了一种集群监控处理系统及方法,该集群监控处理系统包括中央控制器、多个监控容器以及多个目标服务器,该些监控容器用于存储与可处理事件对应的处理程序以及与待分析事件对应的分析程序;中央控制器用于将监控参数分别传输至该些监控容器,并将该些监控容器分发出去;该些监控容器用于监控该些目标服务器,并在出现的事件为可处理事件时执行与该出现的事件对应的处理程序并将处理结果传输至中央控制器,在出现的事件为待分析事件时执行与该出现的事件对应的分析程序并将分析结果传输至中央控制器;中央控制器用于在接收到该分析结果时发出告警。本发明的集群监控处理系统减少了运维人员的参与,提高了目标服务器的运维效率。
1.一种集群监控处理系统,其特征在于,包括一中央控制器、多个监控容器以及多个目标服务器,
该些监控容器用于存储与可处理事件对应的处理程序以及与待分析事件对应的分析程序;可处理事件为监控容器能做出处理的事件,待分析事件为监控容器仅能做出分析不能做出处理的事件;
中央控制器用于将监控参数分别传输至该些监控容器,并将该些监控容器分发出去;
该些监控容器用于根据该监控参数监控该些目标服务器,并在该些目标服务器出现的事件为可处理事件时执行与该出现的事件对应的处理程序并将处理结果传输至该中央控制器,在该些目标服务器出现的事件为待分析事件时执行与该出现的事件对应的分析程序并将分析结果传输至该中央控制器;
该中央控制器用于在接收到该分析结果时发出告警。
2.如权利要求1所述的集群监控处理系统,其特征在于,该些监控容器分为多个类型,各类型的监控容器分别用于监控目标服务器的不同性能,中央控制器还用于根据该些目标服务器的数量和该些监控容器的处理能力确定各类型的监控容器的数量使得每个目标服务器的待监控性能均被监控。
3.如权利要求1或2所述的集群监控处理系统,其特征在于,该监控参数包括监控频率和/或访问密钥。
4.如权利要求1所述的集群监控处理系统,其特征在于,该些监控容器均使用Docker。
5.一种集群监控处理方法,其特征在于,利用如权利要求1所述的集群监控处理系统实现,该集群监控处理方法包括以下步骤:
S1、该中央控制器将该监控参数分别传输至该些监控容器,并将该些监控容器分发出去;
S2、该些监控容器根据该监控参数监控该些目标服务器,并在该些目标服务器出现的事件为可处理事件时执行与该出现的事件对应的处理程序并将处理结果传输至该中央控制器,在该些目标服务器出现的事件为待分析事件时执行与该出现的事件对应的分析程序并将分析结果传输至该中央控制器;可处理事件为监控容器能做出处理的事件,待分析事件为监控容器仅能做出分析不能做出处理的事件;
S3、该中央控制器在接收到该分析结果时发出告警。
6.如权利要求5所述的集群监控处理方法,其特征在于,该些监控容器分为多个类型,各类型的监控容器分别监控目标服务器的不同性能,将步骤S1替换为步骤S1’,S1’、该中央控制器根据该些目标服务器的数量和该些监控容器的处理能力确定各类型的监控容器的数量,并将该监控参数分别传输至所有监控容器,以及将所有监控容器分发出去,监控容器的数量使得每个目标服务器的待监控性能均被监控。
7.如权利要求5所述的集群监控处理方法,其特征在于,该监控参数包括监控频率和/或访问密钥。
8.如权利要求5所述的集群监控处理方法,其特征在于,该些监控容器均使用Docker。
集群监控处理系统及方法\n技术领域\n[0001] 本发明涉及互联网技术领域,特别涉及一种集群监控处理系统及方法。\n背景技术\n[0002] 目前,对于计算机集群系统的监控主要有两种监控方式,一种是集中式监控,适用于小型集群,将监控的信息从每一台计算机上采集回来,并统一汇总做告警,例如Nagios、Zabbix(Nagios和Zabbix均为网络监视工具)等;另外一种是分布式监控,适用于大型集群,大型集群的特点是计算机数量庞大,一般分布在多个数据中心,这种情况下集中式监控无法处理庞大的信息采集,因此使用分布式的监控方法进行监控并将监控到的数据放回到消息总线上集中处理,例如OpenStack(云计算管理平台)中的Monasca(项目名称)项目。\n[0003] 在传统的集中式监控和分布式监控中,当告警发生时均需要运维人员来跟进处理,而处理告警的效率取决于运维人员的经验,效率低下。这种从监控到告警再到运维人员处理告警的模式已经无法满足当前这种大规模集群运维的需求。\n发明内容\n[0004] 本发明要解决的技术问题是为了克服现有技术集群系统的监控中由运维人员处理告警导致效率低下的缺陷,提供一种高效率的集群监控处理系统及方法。\n[0005] 本发明是通过下述技术方案来解决上述技术问题的:\n[0006] 一种集群监控处理系统,其特点在于,包括一中央控制器、多个监控容器以及多个目标服务器,\n[0007] 该些监控容器用于存储与可处理事件对应的处理程序以及与待分析事件对应的分析程序;\n[0008] 中央控制器用于将监控参数分别传输至该些监控容器,并将该些监控容器分发出去;\n[0009] 该些监控容器用于根据该监控参数监控该些目标服务器,并在该些目标服务器出现的事件为可处理事件时执行与该出现的事件对应的处理程序并将处理结果传输至该中央控制器,在该些目标服务器出现的事件为待分析事件时执行与该出现的事件对应的分析程序并将分析结果传输至该中央控制器;\n[0010] 该中央控制器用于在接收到该分析结果时发出告警。\n[0011] 本方案中,监控参数包括监控目标,可处理事件为监控容器能做出处理的事件,待分析事件为监控容器仅能做出分析不能做出处理的事件。每个监控容器根据接收到的监控目标去监控目标服务器,例如目标服务器的主机名、IP(互联网协议)地址等。当目标服务器出现的事件为可处理事件时,监控容器执行与该出现的事件对应的处理程序并将处理结果传输至中央控制器,不需要运维人员的参与就能完成目标服务器的运维,节约了人力,提高了效率。当目标服务器出现的事件为待分析事件时,监控容器执行与该出现的事件对应的分析程序并将分析结果传输至中央控制器,中央控制器在接收到该分析结果时发出告警,该分析结果包括处理建议,运维人员可以根据监控容器做出的处理建议处理告警,提高了目标服务器的运维效率。\n[0012] 较佳地,该些监控容器分为多个类型,各类型的监控容器分别用于监控目标服务器的不同性能,中央控制器还用于根据该些目标服务器的数量和该些监控容器的处理能力确定各类型的监控容器的数量使得每个目标服务器的待监控性能均被监控。\n[0013] 本方案中,监控容器分为多个类型,例如容量类监控容器和进程类监控容器等,不同类型的监控容器分别用于监控目标服务器的不同性能,例如容量类监控容器用于监控目标服务器的磁盘容量,进程类监控容器用于监控目标服务器的进程运行状况等。中央控制器用于根据目标服务器的数量和监控容器的处理能力确定各类型的监控器的数量,并将监控参数分别传输至所有监控容器,最后将所有监控容器分发出去使得每个目标服务器的待监控性能均被监控。监控容器的处理能力为一个监控容器在不阻塞的情况下正常监控目标服务器的数量,取决于监控容器中的处理程序和分析程序。\n[0014] 较佳地,该监控参数包括监控频率和/或访问密钥。例如,中央控制器可以根据待监控性能对目标服务器整体性能的影响程度设置监控频率,根据目标服务器中信息的重要程度设置访问密钥。\n[0015] 较佳地,该些监控容器均使用Docker。Docker是提供商DotCloud开源的一个基于LXC(LXC为Linux Container的简写,Linux Container容器是一种内核虚拟化技术)的高级容器引擎。\n[0016] 本发明还提供一种集群监控处理方法,其特点在于,利用如上所述的集群监控处理系统实现,该集群监控处理方法包括以下步骤:\n[0017] S1、该中央控制器将该监控参数分别传输至该些监控容器,并将该些监控容器分发出去;\n[0018] S2、该些监控容器根据该监控参数监控该些目标服务器,并在该些目标服务器出现的事件为可处理事件时执行与该出现的事件对应的处理程序并将处理结果传输至该中央控制器,在该些目标服务器出现的事件为待分析事件时执行与该出现的事件对应的分析程序并将分析结果传输至该中央控制器;\n[0019] S3、该中央控制器在接收到该分析结果时发出告警。\n[0020] 较佳地,该些监控容器分为多个类型,各类型的监控容器分别监控目标服务器的不同性能,将步骤S1替换为步骤S1’,\n[0021] S1’、该中央控制器根据该些目标服务器的数量和该些监控容器的处理能力确定各类型的监控容器的数量,并将该监控参数分别传输至所有监控容器,以及将所有监控容器分发出去,监控容器的数量使得每个目标服务器的待监控性能均被监控。\n[0022] 较佳地,该监控参数包括监控频率和/或访问密钥。\n[0023] 较佳地,该些监控容器均使用Docker。\n[0024] 在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。\n[0025] 本发明的积极进步效果在于:与现有技术相比,本发明集群监控处理系统通过利用分发出去的监控容器来监控目标服务器并执行相应的处理程序或分析程序,减少了运维人员的参与,大大提高了目标服务器的运维效率。\n附图说明\n[0026] 图1为本发明实施例的集群监控处理系统的结构框图。\n[0027] 图2为本发明实施例的集群监控处理方法的流程图。\n具体实施方式\n[0028] 下面举个较佳实施例,并结合附图来更清楚完整地说明本发明。\n[0029] 一种集群监控处理系统,如图1所示,包括中央控制器10、多个不同类型的监控容器11以及集群12,其中,集群12包括多个目标服务器13,监控容器包括A类监控容器和B类监控容器等多个类型的监控容器,监控容器11均使用Docker。监控容器11用于存储与可处理事件对应的处理程序以及与待分析事件对应的分析程序。其中,监控容器中的处理程度和分析程序由运维人员定期更新,使得监控容器不仅能够自动处理更多的事件,而且对事件分析的结果更加优化,当运维人员接收到告警时能更有效地做出处理决定。\n[0030] 如图1所示,中央控制器用于根据目标服务器13的数量和A类监控容器的处理能力将A类监控容器复制为四个,见图1中A类监控容器重叠的部分,中央控制器用于根据标服务器13的数量和B类监控容器的处理能力将B类监控容器复制为三个,见图1中B类监控容器重叠的部分。A类监控容器和B类监控容器均用于通过Https(网络协议)的方式访问中央控制器以获取监控参数,不同类型的监控容器获取到不同的监控参数。其中,监控参数包括监控目标、监控频率和访问密钥。中央控制器用于将所有监控容器分发到集群12中,监控容器11的数量使得每个目标服务器13的待监控性能均被监控。\n[0031] 该些监控容器用于根据该监控参数监控该些目标服务器,并在该些目标服务器出现的事件为可处理事件时执行与该出现的事件对应的处理程序并将处理结果传输至该中央控制器,在该些目标服务器出现的事件为待分析事件时执行与该出现的事件对应的分析程序并将分析结果传输至该中央控制器;该中央控制器用于在接收到该分析结果时发出告警。其中,监控容器中的常规监控使用Nagios做快速采集。\n[0032] 本实施例还提供一种集群监控处理方法,利用如上所述的集群监控处理系统实现,如图2所示,该集群监控处理方法包括以下步骤:\n[0033] 步骤101、该中央控制器根据该些目标服务器的数量和该些监控容器的处理能力确定各类型的监控容器的数量,并将该监控参数分别传输至所有监控容器,以及将所有监控容器分发出去,监控容器的数量使得每个目标服务器的待监控性能均被监控;\n[0034] 步骤102、该些监控容器根据该监控参数监控该些目标服务器,并在该些目标服务器出现的事件为可处理事件时执行与该出现的事件对应的处理程序并将处理结果传输至该中央控制器,在该些目标服务器出现的事件为待分析事件时执行与该出现的事件对应的分析程序并将分析结果传输至该中央控制器;\n[0035] 步骤103、该中央控制器在接收到该分析结果时发出告警。\n[0036] 下面举两个具体的例子来说明本发明,以使本领域的技术人员能够更好地理解本发明的技术方案。\n[0037] 设使用场景一中集群监控处理系统包括中央控制器、1100台目标服务器以及磁盘空间监控容器。经测试,一个磁盘空间监控容器的处理能力为在不阻塞的情况下正常监控目标服务器的数量为200台,因此要监控所有目标服务器的磁盘空间,至少需要6个磁盘空间监控容器。首先,中央控制器根据目标服务器的数量和磁盘空间监控容器的处理能力确定磁盘空间监控容器的数量为6个,分别为监控容器A1、监控容器A2、监控容器A3、监控容器A4、监控容器A5以及监控容器A6。其次,中央控制器将第1~200台目标服务器的主机名和IP地址以及每两分钟监控一次的监控频率传输至监控容器A1,中央控制器将第201~400台目标服务器的主机名和IP地址以及每两分钟监控一次的监控频率传输至监控容器A2,以此类推,中央控制器将第1001~1100台目标服务器的主机名和IP地址以及每两分钟监控一次的监控频率传输至监控容器A6。然后,中央控制器将6个磁盘空间监控容器分发出去。\n[0038] 当监控容器A1监控到第150台目标服务器的磁盘空间使用量达到80%,且占用大量空间的文件在监控容器A1中的安全删除文件列表中,即为可处理事件,监控容器A1将该占用大量空间的文件安全删除并将删除的结果传输至中央控制器。当监控容器A6监控到第\n1080台目标服务器的磁盘空间使用量达到90%,且占用大量空间的文件不在监控容器A6中的安全删除文件列表中,即为待分析事件,监控容器A6对该占用大量空间的文件进行分析,根据增长速度预测磁盘空间的使用量何时会达到100%,并将分析结果传输至中央控制器,中央控制器在接收到分析结果时发出告警,运维人员在接收到告警时,根据分析结果可以知道事件发生的原因并获得具体的行动目标,提高了运维人员处理该告警的效率。\n[0039] 设使用场景二中集群监控处理系统包括中央控制器、多个目标服务器以及宿主机监控容器,其中多个目标服务器均为宿主机。由于用户的使用虚拟机在宿主机上负载分布不均匀,造成有的宿主机繁忙,有的宿主机很闲。当宿主机监控容器M监控到宿主机繁忙时,宿主机监控容器M通过查看繁忙宿主机上所有虚拟机的负载历史选择可以迁移的虚拟机N,并根据负载历史选择最合适的在线迁移时间P,即虚拟机的负载低峰时间。中央控制器查询是否有其他的宿主机监控容器尝试对虚拟机N进行迁移,若没有,宿主机监控容器M传输一预迁移虚拟机N的信号至中央控制器。如果其他宿主机监控容器也监控到宿主机监控容器M类似的问题则会自动绕开。当到达迁移时间P时,宿主机监控容器M在核查到符合迁移条件时将虚拟机N迁移到空闲的宿主机上,并在迁移的过程中查看对方宿主机的性能指标,以及在迁移完成后进行核查,最后将迁移结果传输至中央控制器。其中,迁移条件包括对方宿主机是否空闲、是否有足够的空间等。\n[0040] 虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
法律信息
- 2018-05-08
- 2016-03-02
专利申请权的转移
登记生效日: 2016.02.04
申请人由携程计算机技术(上海)有限公司变更为上海携程商务有限公司
地址由200335 上海市长宁区福泉路99号携程网络技术大楼变更为200335 上海市长宁区金钟路968号16号楼10楼
- 2015-04-22
实质审查的生效
IPC(主分类): H04L 12/26
专利申请号: 201410835782.0
申请日: 2014.12.23
- 2015-03-25
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2014-10-08
|
2014-07-29
| | |
2
| |
2009-05-20
|
2008-11-14
| | |
3
| |
2004-11-17
|
2003-12-10
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |