技术领域
本发明涉及采集机群信息的方法和系统,尤其涉及采集机群中不 同类型节点的软、硬件信息的方法与系统,这些节点包括计算节点、 登录节点、I/O节点。
背景技术
机群(Cluster)服务器系统是互相连接的多个独立计算机(节点 机)的集合。这些计算机可以是PC,也可以是工作站等,每个节点机 都有自己的存储器、I/O设备和操作系统。这些节点机通过高速网络连 接在一起,在中间件等配合下,形成一个超级服务器。机群服务器在 大规模科学计算,比如石油地质等方面发挥着重要作用。
由于机群节点数众多,如何将机群系统的各部分信息及时而准确 地采集,是对机群进行监控和维护的一个重要而紧迫的问题。而机群 系统包含多种节点,诸如计算节点、登录节点、I/O节点,这些类型节 点的软、硬件结构存在很大的差异。需要对不同类型的节点都加以监 控才能保证无遗漏地掌握机群系统的整体运行状态。目前尚缺乏能够 对大机群系统的不同节点的软硬件信息统一进行实时监控的好方案。
发明内容
本发明的一个目的是提供一种采集机群中不同类型节点的软件和 硬件信息的系统和方法。
本发明的一个目的是提供一种采集机群中不同类型节点的软件和 硬件信息的系统和方法,该系统和方法易于对机群系统中结点机数量 进行扩展。
本发明的再一个目的在于提供一种新的采集机群中不同类型节点 的软件和硬件信息的系统和方法,该系统和方法可以保证对各结点机 数据采集的同步性。
本发明的进一步目的在于提供一种新的监控系统和方法,该系统 和方法可以减少对系统资源的占用,从而降低运行成本。
本发明的进一步目的在于提供一种新的采集机群中不同类型节点 的软件和硬件信息的系统和方法,该系统和方法可以分别有效采集和 传送机群软件和硬件信息。
本发明提供了一种机群节点信息采集监控系统,所述机群有至少一 组节点机,所述系统包括:节点机的信息采集装置,用于采集节点机 的信息,所述组的节点机的信息汇集装置,用于汇集各节点机信息采 集装置采集的信息,监控装置,用于接收和汇总所述机群各节点机的 信息,通信线路,将所述组的信息汇集装置与所述监控装置相连。
本发明还提供了一种采集机群节点信息的方法,机群有多个节点机 并配有机群监控装置,所述方法包括如下步骤:将所述机群的节点机 分为节点机组,在节点机组内的各节点机上采集信息,在所述节点机 组内汇集所述各节点机采集到的信息,将组内汇集的各节点机信息发 送给所述机群监控装置。
本发明的一种采集机群节点信息的方法,通过对不同节点的软件和 硬件采用分级采集和分级传送。
本发明的一种采集机群节点信息的方法,通过对不同节点的软件和 硬件采用分别采集和分别传送。
附图说明
图1为根据本发明的一个机群节点信息采集监控系统的示意图。
图2为根据本发明的一个机群节点信息采集监控系统在N个机柜上 应用的示意图。
图3为根据本发明的一个机群节点信息采集监控系统在N个机柜上 应用的一个详细示意图。
图4为根据本发明的机群节点信息采集监控系统在采集监控软件 信息方法和结构。
图5和图6为根据本发明的机群节点信息采集监控系统在采集监控 软件信息中采集数据和汇总过程。
图7为根据本发明的机群节点信息采集监控系统的采集装置的一 个实施例的示意图。
图8为根据本发明的机群节点信息采集监控系统的采集装置的一 个实施例的电路图。
图9为根据本发明的机群节点信息采集监控系统的汇集装置的一 个实施例的示意图。
图10为根据本发明的机群节点信息采集监控系统的汇集装置的一 个实施例的电路图。
具体实施方式
根据本发明的机群节点信息采集监控系统的技术方案,针对机群 系统包含的多种结点的差异,诸如计算结点、登录结点、IO结点,以 及各结点软硬件结构存在的差异,采取不同的途径获取其配置、运行 信息,以便加以统一监控。
对于计算结点,采用两条途径获取其信息。硬件信息(比如风扇 转速,CPU温度等)通过一块结点机信息采集装置在结点机获取(比 如读取主板上IIC信息),然后通过一个串行总线发送到机柜的信息汇 集装置,再由汇集装置将机柜内各结点机的信息汇总后发送给机群系 统的监控主机。通过结点机信息采集装置对硬件信息的获取有一大优 点,就是不依赖于结点机的操作系统,甚至不依赖于结点机是否处于 开机状态,均能采集到硬件信息。同时,通过对传送通信的分级或分 层安排,大大节省了资源。另外一些需要经过操作系统才能获取的软 件信息,诸如CPU利用率、网络流量等,可以通过以太网络获取。对 于这类软件信息的收集传送,首先在每个结点机上运行代理程序进行 数据采集,经运行一中间代理层或中间程序把各结点机采集到的数据 收集汇总,然后通过以太网统一传递给监控主机上运行的服务程序 (BSP)。
对于登录结点,由于其结构与计算节点类似,信息也是通过上述 两种途径获取。
对于IO结点,由于不适合采用结点机信息采集装置采集硬件信息, 其所有的监控信息通过网络,如以太网获取。每个结点机上运行的代 理程序负责查询收集结点机的运行状态信息,中间层或中间级把采集 到的数据收集汇总后,通过以太网统一传递给监控主机上运行的服务 程序(BSP)。下面对IO对信息采集的特点做详细说明。
由于在IO节点机的主板上使用其它类型结点机的采集装置不能正 常工作,所以IO节点机的所有信息都是通过以太网获取。IO节点机硬 件信息与其他节点机硬件信息的传输方式不同,IO节点机硬件信息的 采集方式也不同。下面做一说明。
IO节点机上的代理程序NA除完成采集软件信息的任务外(这一点 和普通的NA一样),它还要采集IO节点机的硬件信息。其硬件信息的 获取途径是通过主板上的BMC芯片和I2C总线,遵循IPMI规范,读取硬 件的信息。在给中间代理层或中间程序NP的传输的过程中,在软件信 息后附上硬件信息;NP在接收到IO节点机的信息时,同时也将硬件信 息抽取出来,附在整个机柜信息的后面,传输给BSP;BSP在接收到IO 节点机所在的机柜的信息时,将硬件信息抽取出来,放在硬件信息的 缓冲区中,等待存入数据库中(在这一层次上,BSP的分离软硬件信息, 使得数据库和GCM不用关心IO节点机软硬件信息的不同之处,从而达 到隐藏的目的)。
这样,各类型结点的软硬件信息以不同的方式采集后,汇总到监 控主机,由监控主机统一进行处理。根据本发明的技术方案,采集的 数据丰富全面,涵盖了机群中各种类型结点,另一方面数据集中而便 于管理、维护和控制,从而实现了真正将整个机群系统作为一个单一映 像进行监控。
图1为根据本发明的机群节点信息采集监控系统一个较佳实施例 的示意图。如图1所示,机群中包含至少一个机柜10,机柜中包括至少 一个节点机101,机柜10中均设置有一个节点机信息汇集装置102,每 个节点机101均设置有一个节点机信息采集装置101A,一个机柜内可能 包含多种类型的节点(为清晰起见,未示于图中)。在机柜中,每个 节点机101经由串行总线40A连接到节点机信息汇集装置102,而节点机 信息汇集装置102经由串行总线40B连接到监控主机401,在本实施例 中,串行总线40A和串行总线40B(统称为串行总线40)采用485总线。每 个节点机101又通过以太网20而经由交换机30与监控主机401连接。在 本实施例中,设有一个监控机柜(未示出)。监控机柜中除了放置监 控主机401外,还可以放置其他节点机,I/O节点机等。监控主机401 接收汇总来自网络20的各种类型的节点信息。在本发明实施例中,节 点则例如有计算节点、登录节点和I/O节点。
监控主机401对于机群信息的获取主要通过两条途径:一条途径是 串行总线40;另一途径是以太网20。以下对此分别加以说明。
首先参见图1描述本发明通过串行总线获取机群信息工作过程。 通过串行总线40A,各节点机信息采集装置101A所采集到的第一组类 型的信息,诸如风扇转速、CPU温度、内存电压这样的硬件信息汇集 到机柜内的机柜信息汇集装置102。监控主机401经由串行总线40B, 通过轮询方式而将各机柜的节点机信息汇集装置102所汇集的第一组 类型的信息加以汇总,并存储在监控主机中的存储装置(图中未示) 中,以便进行后续处理。关于监控主机所采用的轮询方式不再赘述, 因其为本领域技术人员普遍了解的公知技术。
参见图1描述本发明通过网络20获取机群信息工作过程。各节点 机10经由以太网络20连接到交换机30,交换机30再经由以太网20 连接到监控机柜50中监控主机401,将第二组类型的信息送至监控主 机401,在本实施例中该第二组类型的信息为软件信息。节点机101 的操作系统运行代理程序读取采集到的该第二组类型的信息,然后经 一个中间层或程序把采集到的数据收集汇总,通过以太网统一传递给 监控主机401上运行的服务程序(BSP)。采用这种途径采集的第二组 类型的软信息包括CPU利用率、内存利用率、网络流量、用户进程等。
图2显示了根据本发明的机群节点信息采集监控系统的应用于有 N个机柜或机组的一个实施例的示意图。其中机群有N个机柜10N, 每个机柜中有N个节点机101N,每个机柜中有一个信息汇集装置102, 每个节点机101有一个信息采集装置101A,将各机柜的信息汇集装置 102与监控主机401通过串行总线40B连接起来,建立第一级的串行 通信,又将各机柜内的所有节点机的信息采集装置101A和该柜的信息 汇集装置102通过串行总线40A连接起来,建立第二级的串行通信。 此外,通过以太网将各节点机101的信息采集装置101A与监控机柜 50中的监控主机401相连。在以太网中设置交换机30。监控机柜中除 了监控主机401,还可以装有登录节点机和IO节点机,它们也是通过 以太网20并经交换机30与监控主机401建立通信。
图3显示了根据本发明的机群节点信息采集监控系统的应用于有 N个机柜或机组的一个实施例的更为详细的示意图。其中机群有N个 机柜10N,每个机柜中有N个节点机101N,每个机柜中有一个信息汇 集装置102,每个节点机101有一个信息采集装置101A,将各机柜的 信息汇集装置102与监控主机401通过串行总线40B连接起来,建立 第一级的串行通信,又将各机柜内的所有节点机的信息采集装置101A 和该柜的信息汇集装置102通过串行总线40A连接起来,建立第二级 的串行通信。从而采集第一类信息,即硬件信息。其中,信息采集装 置101A可以通过各类传感器或直接在节点机主板上采集节点机的硬 件信息。同时,信息汇集装置102也可以通过各类传感器直接采集整 个机柜的硬件信息,并将其采集整个机柜的硬件信息和信息采集装置 101A采集的各节点机硬件信息,通过串行总线40B发往监控主机401。 此外,通过以太网将各节点机101的信息采集装置101A与监控机柜中 的监控主机401相连。在以太网中设置交换机30。监控机柜中除了监 控主机401,还可以装有登录节点机和IO节点机,它们也是通过以太 网20并经交换机30与监控主机401建立通信。从而采集第二类信息, 即软件信息。监控主机401、信息采集装置101A和信息汇集装置102 都可以设置报警装置,响应监控主机401对汇总的各类信息经过处理 后发出的各类故障信号,作出响应的报警。所述系统也可以用于对机 群的实施其它控制的用途,比如机群的电源状况的监控和机群顺序上 下电的制动控制等。
根据本发明的以太网通信的组织和串口网络类似,也采用了一种 分层的结构:一为节点代理(Node Proxy,NP)层,一为节点采集(Node Agent,NA)层。监控主机401把每个机柜内的节点机101划作一个小 组,通过与节点机101的NP进程通信,在每个小组中选出一个节点机 作为小组代理(NP)。监控主机401只与NP通信。NA负责采集操作 系统的信息,同时监听来自NP的数据收集命令,并将信息数据传输给 NP。通过这样的分层结构,使得监控主机401面对的是少数的NP,而 不是许多节点机101。同时NP面对的一个机柜10内相对少量的节点 机101;这样减少了通信瞬时爆炸的可能性,同时也增强了监控软件结 构的弹性。
附图4显示了根据本发明为采集第二组类型的信息,即软件信息 (也可包括IO节点的硬件信息)的采集监控系统的一个较佳实施例。在 监控主机上运行着基本服务模块或程序(BSP)11,它负责在需要了解 机群系统运行状态时发出数据采集命令,然后等待并接收由结点机返 回的数据,对其进行汇总和分析处理。机群系统的所有结点机分为若 干个组12,各个组12分别有N个结点机(如附图5和6中所示),但 只有一个结点机上运行着结点代理模块或程序(NP)14,而每个节点 机上都运行着结点采集模块或程序(NA)13。其中NP模块14负责在 收到来自BSP的采集命令后,将采集命令传送给该组中所有结点机的 NA模块,然后等待并接收NA模块返回的数据,将其汇总后统一发送 给BSP;NA模块13则负责周期性地采集所在结点机的运行状态数据, 并在收到采集命令后立即返回最新一次的采集数据。NA模块和NP模 块都是运行于结点机操作系统之上的软件或程序。
根据以上所述,我们可以看出,监控系统的模块按照各自的功能 分为三级,BSP为第一级,NP为第二级,NA为第三级。处于不同层 次级别的模块完成不同的任务,他们相互配合,实现对机群系统的监 控。其中,NA模块扮演了信息采集装置的功能,而NP模块扮演了信 息汇集装置的功能。
一次信息采集过程可以分为两个步骤:
一、采集命令的发送。如附图5所示,BSP模块11首先通过UDP 广播方式把采集命令广播到所有的NP模块14,这样,采集命令就同 步到达所有的NP;NP收到采集命令后,立即以UDP广播方式把采集 命令广播到所在组12中的所有NA模块13,同样,采集命令又同步到 达所有的NA模块。我们不难看出,BSP发出的采集命令最终同步到 达整个机群系统中的所有NA模块。
二、采集数据的汇总。如附图6所示,各个NA模块13周期性地 采集所在结点机的运行状态数据,并存储在缓冲区中,当收到NP模块 14发出的采集命令时,就将最新一次采集到的数据信息立即传送给 NP;各NP接收本组12所有NA返回的采集数据,将其汇总后统一 传送给BSP模块11;BSP接收所有NP返回的数据,进行汇总,并插 入数据库中。
根据以上所述,由于数据采集命令同步到达所有的NA,NA接到 命令立即返回最新一次采集的数据,所以,BSP最终收到的是所有结 点机在同一时刻的运行状态数据,能够反映机群系统的整体运行情况。
由于NA模块自身周期性地采集数据,能够快速响应采集命令, 保证信息采集过程迅速完成。NA模块的采集周期经过合理设置,既保 证了数据的实时性,又最大程度地减少了结点机的资源。从而也降低 运行成本。
监控主机的另一个程序GCM(监控显示模块)从数据库中读出数 据,并可以以图形化的方式显示出来。
下面作为本发明较佳实施例的一个运用给出一个例子。
一个机群系统由256个结点机(服务器)组成,256个结点机分别 安放在16个机柜中,每个机柜中安放16个结点机。这256个结点机 通过以太网络设备连接成一个大型机群系统。
为了对该系统每个结点机的运行情况进行监控,根据本发明,我 们将这256个结点机按照其物理布局(机柜)分组,每个机柜中的16 个结点机为一组,共16个组。在每个结点机上都运行结点采集模块 NA,在每组16个结点机的其中一个上还运行着结点代理模块NP。监 控主机上运行BSP,它通过485串口网络和以太网络与NP和NA通信。
当监控主机BSP需要了解机群运行状态时,首先将采集命令以 UDP广播方式发送到16个组的NP;每个NP在接到该命令后,立即 以UDP广播方式将该命令发送到该组的16个NA。这样,BSP发出 的采集命令就同步到达全部(256个)结点机的NA。
各个NA周期性地采集所在结点机的数据,存放在缓冲区中,当 它收到NP的采集命令后,立即返回最新一次的采集数据;每个NP收 到该组中16个NA发回的数据,将其汇总后发送给BSP。
从上面对本发明实施例的描述可以看出,本发明的机群监控系统 和方法很容易对机群结点机的数量进行扩展。比如,在上述例子中从 256个结点机扩展到320个结点机时,对于BSP而言,只增加了4个 接受和发送信息的NP模块。
图7和图8分别为本发明一实施例所用的节点机信息采集装置101A 的一个示意图和电路图。其中设有中央处理器(微处理器),以及与 该中央处理器连接并且用于和监控主机401传递信息的通信接口;该中 央处理器通过其I2C总线接口与节点机主板连接。在本实施例中,该通 信接口为RS-485接口,用于监控节点机主板传递信息。单片机通过其 I2C总线接口与节点机主板连接并接收节点机主板传送的检测信息。上 述的装置在中央处理器的地址线上还设有用于定本装置ID地址的开 关,该装置直接与所在节点机的5VSB电源连接。通过I2C总线接收节点 机(主板)传感器所测量节点内的温度及风扇运行状态,并可以根据 需要自行设置测温点和安置风扇,可扩展性好;
本实施例的开关和复位信号与单片机连接,可以方便地进行远程 开关机等操作,由于节点机信息采集装置101A直接与所在节点机的 5VSB电源连接,因此可以独立运行。
参见图8,设有一单片机U1,单片机U1通过其端口P1.6、P1.7组成 的I2C总线接口与节点机主板相应的接口连接,读取节点机主板的电压、 温度和风扇的检测信息,并且读取控制温度、风扇转速监控芯片。上 述的装置还设有用于显示监控状态的指示灯,该指示灯连接到中央处 理器的输出端口。单片机U1通过其输出信号LED1-LED6与发光二极管 LEDS1及LED4-LED6连接,构成报警灯。
在实施例中,还设有开关控制芯片U6,用于输出单片机U1的主板 开关信号、和复位信号RST,因此,可以在出现损坏性故障时自动关闭 节点机,以保护节点机不受严重毁坏;另外,上述的装置在单片机U1 的地址线上还设有ID地址的开关S1,该开关用于设定本装置在整个监 控系统中地地址信息。本实施例中,其电源直接与所在节点机的5VSB 电源连接,可以独立于该节点机运行。
本发明实现了对机群系统各节点机的实时监控与报警,保护节点 机不受损坏,用户可以快捷地掌握机群当前运行状态,并方便地进行 远程开关机等操作;通过485高速串行总线与机柜的节点机信息汇集装 置102通信;接受并执行机柜的节点机信息汇集装置102的信息汇集命 令、加/断电命令和复位命令等,实现远程信息定位、远程开关机等操 作;本发明不依赖于节点机是否启动;并且具有地址自动识别功能。
图9和图10分别为本发明一实施例所用的节点机信息汇集报警装 置102的一个示意图电路图。信息汇集装置102位于被监控节点机和监 控主机之间,汇集被监控节点机的信息,并与监控主机进行交互,可 满足对大规模机群系统进行监控管理的需要,并可以大规模的扩展被 监控对象可读取节点机101的各个硬件信息。如图2所示,该监控信息 汇集报警装置将来自机柜内各节点机101上的信息采集装置101A的信 息加以汇集,并通过485总线与监控主机401通信。
信息汇集装置102至少包括中央处理器、一个以上用于与节点机采 集装置102和监控主机进行通信的通信接口和存储单元;该通信接口与 中央处理器连接,该中央处理器与该存储单元连接。信息汇集装置102 还设有用于直接连接检测机柜整体状况的传感器的接口,如供电电源 的传感器的连接接口,该连接接口连接到中央处理器的模数转换输入 端。从而信息汇集装置102也可以直接对机柜整体状况进行信息采集和 汇集,同时对机柜整体某些运行实施直接的监控和操作,如机柜供电 电源的状况信息采集和对机柜上下电的控制。
信息汇集装置102还设有用于设定ID地址的装置,该装置与中央处 理器的数据总线连接。它还设有用于设定硬件板卡标识的装置,该装 置与中央处理器的数据总线连接。该节点机信息汇集装置还设有用于 显示其工作状态以及显示报警信息的指示灯,该指示灯与中央处理器 连接。
参见图10,本发明的信息汇集装置102设有中央处理器U1、由 RS485串行通信接口U16、U6以及存储器U3、U4构成;其中,该RS485 串行通信接口U16与中央处理器U1直接连接,该RS485串行通信接口 U6经过串行通信芯片U18与中央处理器U1连接,缓冲地区中央处理器 U1与该存储器U3、U4通过数据地址总线连接。中央处理器U1通过其 模数转换信号端口P5.0/ADC0、P5.1/ADC1连接一连接接口J9,该接口 J9用于检测机柜供电电源的传感器;另外,本实施例中还设有用于设 定ID地址的装置SW8,其为一与中央处理器的数据总线连接的多路开 关,用于人工设定该本发明的识别地址。中央处理器U1不通过其输出 端口P4.2-P4.2分别连接和控制用于显示其工作状态以及显示报警信息 的指示灯U7、U8、U9、U10。
信息汇集装置102置于机柜内,可直接采集机柜内的机柜风扇、温 度等信息,并可根据需要增放风扇和温度传感器,其接口J1用于与风 扇连接,中央处理器U1通过该接口J1连接并控制风扇的转速。本发明 的信息汇集装置102对自己采集的信息进行监控;同时通过RS485高速 串行总线与设置在节点机的信息采集装置通信,将自己采集的信息和 机柜内各节点机运行状态和运行参数送往监控主机。接受监控主机发 出的命令,实现远程上信息采集和监控。并根据监控指令控制,如节 点机的电源和机柜电源的开关。当出现严重故障时,对单机实施断电 保护。
通过以上描述,对本领域技术人员来说显而易见的是,根据本发 明而使得硬件信息在采集后汇总到监控主机,由监控主机统一处理, 进行定位和报警,从而实现了将整个机群作为一个单一映象来加以监 控,因此可提高机群运行的可靠性并可在此基础上进一步扩展机群的 应用范围。
由于在IO节点机的主板上使用其它类型结点机的采集装置不能正 常工作,所以IO节点机的所有信息都是通过以太网获取。IO节点机硬 件信息与其他节点机硬件信息的传输方式不同,IO节点机硬件信息的 采集方式也不同。下面做一说明。
IO节点机上的NA除完成采集软件信息的任务外(这一点和普通的 NA一样),它还要采集IO节点机的硬件信息。其硬件信息的获取途径 是通过主板上的BMC芯片和I2C总线,遵循IPMI规范,读取硬件的信息。 在给NP的传输的过程中,在软件信息后附上硬件信息;NP在接收到IO 节点机的信息时,同时也将硬件信息抽取出来,附在整个机柜信息的 后面,传输给BSP;BSP在接收到IO节点机所在的机柜的信息时,将硬 件信息抽取出来,放在硬件信息的缓冲区中,等待存入数据库中(在 这一层次上,BSP的分离软硬件信息,使得数据库和GCM不用关心IO 节点机软硬件信息的不同之处,从而达到隐藏的目的)。
下面对监控装置(监控主机)-信息汇集装置(汇集卡)-信息 采集装置(采集卡)的工作流程举例说明。
监控装置和汇集卡的通信交互是通过BSP进行。下面就讲BSP和汇 集卡的传输过程。
BSP按照格式组成如下的包:(发送的顺序是由低到高)
然后BSP等待汇集卡的回复。汇集卡在监听串口网络数据的过程中,发 现串口线有信号,就试图找到“包起始标志”和“包终止标志”,然 后判断其中的目标地址是否和自己的ID相同,如果不同,那么就丢弃 该数据包,继续监听串口网络。如果目标地址和自己的ID相同,那么 检查检验和,如果不对,那么也丢弃该数据包,继续监听串口网络。
如果上述的检查都对,那么汇集卡将根据包的类型做相应的操作 (收集数据,上电或下电等)。如果是收集数据,那么将保存在缓冲 区的一个完整机柜数据传输给BSP,数据格式如下:
BSP在等待汇集卡回复的过程中,如果超过一定的时间还没有汇集 卡的回复,那么重新发送命令。在接收到汇集卡的回复之后,首先检 查数据包的格式,如果不对,那么重新发送命令,并等待新的回复。 如果通过检查,那么将数据包中的信息抽取出来,存入BSP自己维护的 缓冲区中。
如果BSP收到的是汇集卡对上/下电操作的回复,那么这个回复需 要传达给CMS的(因为CMS是上/下电操作的发起者)。
BSP通过包中的状态值,就可以知道该操作是否被汇集卡成功执 行。无论汇集卡执行该操作成功与否,BSP根据成功与否,返回执行的 结果给CMS。
下面对采集卡和汇集卡之间采集数据到报警工作过程举例说明。
1.采集命令通信过程如下:发出结点机地址,符合地址的采集卡 回复结点机地址。汇集卡发出采集数据命令(命令类型0x03),该采 集卡收到后回复命令类型0x03。汇集卡再发出命令命令类型0x03,该 采集卡就把查询的数据发出。
采集卡采集数据的发送格式:
节点机地址+CPU电压+CPU1温度+CPU1风扇+CPU2温度+ CPU2风扇+机箱温度+系统风扇1+系统风扇2+节点机电源3.3V+ 节点机电源5V+节点机电源12V+校验和;
加上校验和,每个节点机传送数据为13个字节。
2.采集卡报警(故障显示)
汇集卡发出结点机地址,符合地址的采集卡回复结点机地址。汇 集卡发出故障显示命令(命令类型0x01),该采集卡收到后回复命令 类型0x01,汇集卡再次发出故障显示命令,该采集卡收到后发动报警 装置(使相应的故障显示灯亮、闪),并返回命令类型0x01,如果通 信过程中出错,则恢复初始状态。
显然,本技术领域的技术人员可以根据不同情况或习惯等原因,对 上面例子中的数据格式或字节多少进行调整或改变。此外,结点机信 息采集装置负责采集硬件部分的信息,包括温度电压风扇等,以约定 的协议格式将数据发给信息汇集装置,再由信息汇集装置发给监控装 置。监控装置再按照协议规定的顺序将数据归位。比如第一个数据是 CPU电压,第二个数据是风扇转速,是这样来确定数据的含义。所以这 个地方的信息类型可以在通信传输的内容中明确示出,也可以只传输 数据,而在通信协议中隐含给出。
同时通过上述描述不难看出,对于各类型节点的软件信息和IO节 点的硬件信息的采集和监控过程与上述硬件信息的采集和监控过程类 似,但是是NA程序(另一种采集装置)和NP程序(另一种汇集装置) 通过以太网与监控主机间进行的。此外,关于NA程序(采集装置) 和NP程序(汇集装置)的内部结构,本技术领域的技术人员根据本发 明对其编程是很容易的,这里就不再赘述。
这样,对于各类型节点的软、硬件信息,使用不同的方式加以采 集,再汇总到监控主机,由其统一进行处理。因此,本发明实现了对 机群中所有的类型节点信息的采集。
通过以上描述,对本领域技术人员来说显而易见的是,根据本发 明而使得不同类型节点的软、硬件信息在采集后汇总到监控主机,由 监控主机统一处理,从而实现了将整个机群作为一个单一对象来加以 监控,因此可提高机群运行的可靠性并可在此基础上进一步扩展机群 的应用范围。
最后所应说明的是,以上实施例仅用以说明本发明而并非限制本 发明所描述的技术方案;因此,尽管本说明书参照上述的各个实施例 而对本发明进行了详细的说明,但是,本领域的普通技术人员应当理 解,仍然可以对本发明进行修改或者等同地替换;而一切不脱离本发 明的精神和范围的技术方案及其改进,其均应涵盖在本发明的权利要 求范围当中。
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |