著录项信息
专利名称 | 机群系统运行过程监控的方法和监控管理装置 |
申请号 | CN03146284.7 | 申请日期 | 2003-07-08 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2004-02-18 | 公开/公告号 | CN1475911 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F11/30 | IPC分类号 | G;0;6;F;1;1;/;3;0;;;G;0;6;F;9;/;4;4查看分类表>
|
申请人 | 联想(北京)有限公司 | 申请人地址 | 北京市海淀区上地信息产业基地创业路6号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 联想(北京)有限公司 | 当前权利人 | 联想(北京)有限公司 |
发明人 | 程菊生;崔吉顺;彭涛;田宏萍;金正操;蒋晓华 |
代理机构 | 北京德琦知识产权代理有限公司 | 代理人 | 王琦 |
摘要
本发明提供了一种监控机群系统运行过程的监控管理装置和方法。装置包括:监控主机,通过安装监控管理软件,实现人机接口和控制装置,用于监控所述机群系统的信息,实现故障分析、报警和机群上下电控制;采集装置,用于采集所述机群系统各结点机的状态信息;汇集装置,用于通过通信网络将所述采集装置采集的状态信息汇集,并传送给所述监控主机。利用本发明,使监控系统能够完整地监控机群系统的所有运行过程和运行状态。
技术领域\n本发明涉及计算机机群监控领域,具体涉及机群系统全过程监 控的方法和监控管理装置;更具体涉及监控结点机POST过程, Linux启动过程和系统运行中健康信息。\n背景技术\n机群系统是多台服务器(结点机)机器的聚合。这些服务器通 过专用高速网络聚合在一起,通过中间交互件等软件系统构成一个 单一映像的超级服务器。机群系统运行过程中,需要随时监测其硬 件健康状态和运行状态。这样,管理员能够及时了解机群的运行状 况,及时发现运行过程中出现的异常情况,并进行相应处理,保证 机群系统的正常运行。每个结点都有自己的存储器、I/O设备和操 作系统。这些结点机通过高速网络连接在一起,在中间件等配合 下,形成一个超级服务器。机群服务器在大规模科学计算,比如石 油地质等方面发挥着重要作用。\n在机群系统中,面对一两百台服务器,甚至上千台服务器的情 形,如何快速准确的监控结点的运行状况,是对机群系统进行监控 和维护的一个重要而紧迫的问题。机群的运行过程大致可以分为 POST过程、OS启动过程和正常运行过程,目前业界对正常运行过 程的监控已经有很好的实现,但是对POST过程和OS启动过程却没 有能够很好的进行监控。因此,本专利提出了一种机群系统全过程 监控的方法和实现,通过这种方式,用户不但可以监控机群系统正 常运行时的硬件健康信息,而且可以对机群的POST过程、OS启动 过程进行快速准确的监控。\n中国专利申请97192599.2“用于远程诊断与维修的扩充基本 输入输出系统”和美国专利5,615,331“System and method for debugging a computing system(用于调试计算系统的方法和系 统)”中公开了一种开机自检(POST)和启动功能包括确定计 算机是否启动的代码。当启动失败时,在扩充基本输入输出系统中 直接与远程诊断与维修计算机建立通信链路检测,以在修复后重启 计算机。和直接调试输出码到调试工具,调试工具发送输出的码到 远方的主机的方法。这些专利申请或专利不涉及计算机POST (Power On Self Test上电自检)的监控和机群上对结点LINUX启 动过程的全程监控。\n为了使监控系统能够完整地监控机群系统的所有运行过程和运 行状态,对机群系统的POST过程和OS(Operating System操作系 统)启动过程进行监控,使用户可以快速及时的了解机群系统在各 种运行过程时的状态,及时处理运行中的故障,从而保证机群系统 的正常安全运行,因此,希望能可以实现机群系统全过程监控的方 法和装置。\n发明内容\n本发明的目的是针对机群系统现有技术中的监控问题,提供解 决方案,本发明采用远程控制端实现对任何一个结点机LINUX操作 系统启动过程进行全部监控,如果启动过程中结点机存在问题则可 以进行方便的故障定位,实现全程监控。\n本发明提供一种监控机群系统运行过程的监控管理装置,包 括:\n监控主机,通过安装监控管理软件,实现人机接口和控制装 置,用于监控所述机群系统的信息,实现故障分析、报警和机群上 下电控制;\n采集装置,用于采集所述机群系统各结点机的状态信息;\n汇集装置,用于通过通信网络将所述采集装置采集的状态信息 汇集,并传送给所述监控主机;\n其中,所述采集装置在获得所述各结点的上电自检(POST)的 信息和/或操作系统(OS)信息后,将所述POST信息和OS信息通 过汇集装置发往监控主机,以监控所述POST过程和OS启动过程中 的状态信息。\n可选地,所述通信网络为485串行网络。\n优选地,所述采集装置包括存储器,用于存储采集的POST码和 OS码,所述监控主机中的控制装置包括基本服务提供者(BSP)装 置,用于控制所述各结点机,通过中断获取所述各结点机的所述存 储的POST码和OS码,并由所述汇集装置将所述各结点机的所述存储 的POST码和OS码汇集后存储于所述监控主机中数据存储装置。\n可选地,所述控制装置还包括:POST判断装置,用于判断是否 采集POST码过程已完成,以在完成采集POST码后通过所述BSP控制 采集OS码,在未完成时向所述BSP报告POST码的状态;和OS判断装 置,用于判断是否采集OS码过程已完成,完成时所述机群进入正常 工作过程,未完成时向所述BSP报告OS码的状态。\n本发明还提供一种监控机群系统运行过程的方法,包括步骤:\n设置是否要检测POST过程和/或OS过程;\n如果要检测POST过程:\n 上电所述机群系统的需要上电的结点机,启动所述上电\n的结点机的POST过程;\n 采集装置获取所述POST过程中的状态码并存储之;\n BSP发出收集POST命令,收集采集卡存储的POST码;\n 根据所述POST码,确定系统的上电过程是否正常;\n完成所述POST检测过程后要检测OS过程:\n 采集卡获取并分析所述OS的启动过程的状态信息码;\n BSP发出收集OS码命令,收集采集卡存储的OS码;\n BSP根据所述OS码,确定启动所述OS过程是否正常;\n如果不要检测POST过程和OS过程,执行正常的开机过程。\n可选地,所述获取所述POST过程中的状态码的步骤还包括:确 定POST过程的状态,根据预定规则编码所述状态的状态码。\n优选地,所述获取并分析所述OS的启动过程的状态信息码的步 骤还包括:确定OS启动所处的阶段,根据预定规则编码代表该阶段 的码。\n可选地,方法还包括步骤:传送各结点的所述获取的OS码或 POST码到汇集装置,以将其在汇集装置中汇集。\n优选地,所述获取POST状态码的步骤包括采集卡收集POST状态 码,并执行BSP收集POST状态码命令,通过第一串行接口发送POST 状态码到BSP;\n所述获取OS的启动过程的状态信息码的步骤包括采集卡收集OS 码,并执行BSP收集OS码命令,通过第一串行接口发送OS码到BSP。\n可选地,所述通过第一串行接口发送采集装置采集的POST状态 数据的步骤包括:\n当BSP发出命令后,由汇集卡转发至采集卡,采集卡收到汇集 卡发送来的命令后,发出所述第一串口的中断请求;\n进入所述中断,接收控制装置的命令,如果是收集POST码命 令,发送POST码;如果是收集OS码命令,发送OS码;如果不是 收集POST码命令和收集OS码命令,记录所述接收的命令,结束中 断,返回。\n优选地,所述通过第二串行接口读取采集装置采集的OS状态 数据的步骤包括:启动所述第二串行接口中断,接收所述第一串口 的数据,以确定OS启动码;存储所述OS启动码;结束中断,返 回。\n可选地,所述确定系统的上电过程是否正常的步骤包括:在不 正常时,传送POST码给控制装置;所述确定启动所述OS过程是否 正常的步骤包括:在不正常时,传送OS码给控制装置。\n利用本发明,使监控系统能够完整地监控机群系统的所有运行 过程和运行状态,特别对机群系统的POST过程和OS启动过程进行监 控,使用户可以快速及时的了解机群系统在各种运行过程时的状 态,及时处理运行中的故障,从而保证机群系统的正常安全运行。\n附图说明\n图1示出了本发明的机群监控系统的原理框图;\n图2描绘了本发明实施例的机群系统全过程监控方法的流程 图;\n图3描绘了本发明实施例的机群系统全过程监控方法中采集卡 的流程图,其中,(A)为串口2中断处理流程图,(B)为串口1中 断处理流程图。\n具体实施方式\n机群系统的全过程监控主要通过采集卡、汇集卡和控制台来共 同完成。在本发明的实施例中,采集卡安装在机群系统的每个结点 内部,汇集卡安装在每个机柜的电源箱内,控制台即监控主机,为 了实现不同的控制功能,通过安装不同的控制软件构成不同的控制 装置实现这些不同的控制功能,在系统中,这些控制装置主要是通 过软件设置而改变控制装置的结构的。\n为了便于本领域一般技术人员理解和实现本发明,现结合附图 描绘本发明的实施例。\n首先参照图1,图1示出了本发明的机群监控系统的原理框图。 结合该原理图描绘实现监控各运行过程的方法\n机群系统的POST过程监控如下。机群系统POST过程开始后,安 装在每个结点内部的采集卡即通过80端口(未示出)实时的获取每 个结点的POST码,并存放于采集卡的缓存区中,然后通过串行总线 发送到机柜的监控系统汇集装置汇集卡,由汇集卡将机柜内所有结 点的POST信息汇总后发送给机群系统的控制台。控制台统一分析处 理这些POST码,并通过进度条的方式显示机群系统中所有结点的 POST过程进度。如果某个结点的POST过程停止了,则可以通过界面 看出停止前的POST码,通过POST码即可确定问题所在,从而提示用 户解决。\n机群系统的OS启动过程监控方法如下。由于Linux OS下可以将 启动过程的输出重定向到串口输出,这样置于结点内的采集卡即可 通过串口获取结点OS启动的信息。采集卡通过判断获取的POST码为 0xff可知POST过程结束,OS启动过程开始,即通过串口获取OS的启 动信息并进行分析,判断OS启动处于哪个阶段,并将阶段对应的代 码通过串行总线发送汇集卡,由汇集卡将机柜内所有结点的OS启动 阶段代码汇总后发送给机群系统的控制台。控制台统一分析处理这 些代码,并通过进度条的方式显示机群系统中所有结点的OS启动过 程进度。\n机群系统正常运行后,置于每个结点内的采集卡定时从主板采 集结点的各种硬件健康信息,并通过串行总线最终发送到控制台, 控制台将这些信息分析处理以图形界面方式显示。\n下面以实际的一个机群系统为例进行进一步说明。\n该机群系统有8个结点,1个监控主机(控制台)都置于1个机 柜中。结点内部都安装有采集卡,机柜底部安装有电源箱,电源箱 内有汇集卡1块。采集卡,汇集卡和监控主机通过485串行网络连 接。机群系统POST过程、Linux启动过程和系统正常运行过程中硬 件信息的监控都是通过485串行网络来实现的。\n首先,启动监控主机,从监控系统界面中可以选择对机群系统 的上/下电,根据系统提示选择机群系统中需要上电的结点,即可 实现机群系统的上电。以选择所有8个结点上电为例,系统选择8个 结点上电后,运行在监控主机端的监控程序BSP模块即通过485串行 通 信网络通过通信协议和命令发送对8个结点机的开机命令,采集卡 接收到开机命令后对结点机进行开机,同时从80端口(IO端口,地 址为0x080)读取POST码进行保存。BSP模块执行完开机命令后,立 即执行收集POST码命令,采集卡即将缓冲区中保存的POST码发送给 BSP,BSP轮循各采集卡获取POST码并进行分析,并插入数据库中, GCM则访问数据库根据规则在界面显示各个结点POST过程进度。当 BSP分析到采集卡获取的POST码为0xff后,可知POST过程结束,并 发命令开始收集Linux启动过程的代码。采集卡发现获取的POST码 为0xff后,即使能采集卡与主板相连的串口,开始收集Linux启动 过程信息,并按照规则进行分析,确定Linux启动过程的几个阶 段,形成Linux启动过程阶段代码,并保存,当BSP发送收集Linux 启动过程的代码命令给采集卡后,采集卡即将启动过程的阶段代码 发送给BSP。同样,BSP收集此代码,并分析插入数据库,GCM则访 问数据库根据规则在界面显示各个结点Linux启动过程进度。\n虽然本发明的实施例中,POST码和OS码是不断传送给监控主机 的,实际上也可以在出现故障时才传送POST码或OS码,这时,需要 POST判断装置,用于判断是否采集POST码过程已完成,以在完成采 集POST码后通过BSP控制采集OS码,在未完成时向BSP报告POST码的 状态;和OS判断装置,用于判断是否采集OS码过程已完成,完成时 所述机群进入正常工作过程,未完成时向所述BSP报告OS码的状 态。\n图2和图3描述了安装在结点机内部的采集卡软件工作原理, 通过描述其在获取POST码和Linux启动过程的工作原理,基本就 可以了解整个系统的工作原理。\n首先,监控主机选择的结点上电,运行在监控主机端的监控程 序BSP模块即通过485串行通信网络通过通信协议和命令发送到结点 机内部的采集卡,由采集卡执行开机命令。(未示出)\n在步骤210,判断是否有监控命令,如果没有,在步骤215, 判断是否要获取POST码?如果要获取,进入步骤218,收集POST 码并缓存,然后,进入步骤220,判断是否需要搜集Linux阶段 码。\n如果在步骤215判断不要获取POST码,直接进入步骤220, 判断是否要获取Linux阶段码?如果需要,进入步骤225,启动串 口2信息采集,具体的采集过程参照图3(A);然后,跳转进入 201步骤。如果不需要,直接跳转进入201步骤。\n如果在步骤210判断有监控命令,进入步骤228,开始判断是 什么命令,同时执行对应的命令子程序。例如,如果是开机命令, 则执行结点机开机操作。如果不是开机命令,则判断是否其它命 令,所有的命令判断完毕后,则跳转到201步骤。\n应该知道,传送POST和OS码的步骤可以在出现这些码时就传 送,不论其是否正确,也可以在POST过程或OS启动过程中出现问 题时才将这些码传送给监控主机。因此,本发明还可包括步骤:判 断POST与OS过程是否正常,及在POST过程不正常时,传送POST 码给BSP;在OS启动过程不正常时,传送OS码给BSP;在它们都 正常时,系统不传送POST码和OS码。因此,所附的权利要求包括 这些变化和其等效变化。\n图3描绘了本发明实施例的机群系统全过程监控方法中采集卡 的流程图,其中,(A)为串口2中断处理流程图,(B)为串口1中 断处理流程图。\n对于图3(A),如果结点机在启动的过程中,则需要采集 Linux的启动过程,POST码采集完成后,即启动串口2,开始采集 Linux启动过程。进入串口2中断后,先执行步骤301,接收串口1 数据并分析以确定Linux启动码,然后执行步骤302,将Linux启 动码缓存,处理结束后返回被中断的主程序,继续执行主程序。\n对于图3(B),采集卡是通过串口1来收集BSP发送来的命令 的,有些命令在串口1中断服务程序中执行,有些命令只是记录命 令码,在主程序中执行。其中收集POST码命令的收集是在主程序 中进行,Linux启动码收集命令是在串口1中断服务程序中执行 的。当BSP发出命令后,由汇集卡转发至采集卡,采集卡收到汇集 卡发送来的命令后,即进入串口1中断后,执行步骤401,分析并 接收汇集卡发送来的命令,然后进入步骤402,判断是否收集POST 码命令,如果是则执行步骤501,发送POST码到汇集卡,如果不 是,这进入步骤403,判断是否收集Linux启动码命令,如果是则 执行步骤502,发送Linux启动码到汇集卡,如果不是,则进入步 骤404,判断是否其它命令,如果是则执行步骤503,记录命令码 (中断跳出后在主程序中执行这些命令),如果不是,则中断返 回。返回被中断的主程序,继续执行主程序。\n在一个机群中,远程控制端可以实现对任何一个结点机LINUX 操作系统启动过程进行全部监控,如果启动过程中结点机存在问题 则可以进行方便的故障定位。\n采用的方法是:修改结点机的BIOS重定向和修改LINUX的部 分内核,使得在启动过程中能够将启动信息从串口输出,从串口的 信息转换成485通信,送到主控机。\n同时可以获取结点机的POST代码进行启动过程和错误的定 位。获取结点机的POST配置信息存在两种方法:从PCI上读取80H 端口的POST代码,可以通过分析代码获得计算机启动自检的进 程;另一种方法是通过计算机系统的BIOS设置从串口将系统启动 过程中的配置信息输出。第一种方法从80H端口获取代码都是主板 厂家公认的业界标准,第二种方法也是主板厂家BIOS设置的一项 功能。\n虽然通过实施例描绘了本发明,本领域普通技术人员知道,本 发明有许多变形和变化而不脱离本发明的精神,希望所附的权利要 求包括这些变形和变化而不脱离本发明的精神。
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |