著录项信息
专利名称 | 一种对网管系统故障进行远程诊断定位的方法及其系统 |
申请号 | CN200710179019.7 | 申请日期 | 2007-12-07 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2008-06-11 | 公开/公告号 | CN101197621 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | H04B10/08 | IPC分类号 | H;0;4;B;1;0;/;0;8;;;H;0;4;L;1;2;/;2;6查看分类表>
|
申请人 | 中兴通讯股份有限公司 | 申请人地址 | 广东省深圳市南山区高新技术产业园科技南路中兴通讯大厦
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 中兴通讯股份有限公司 | 当前权利人 | 中兴通讯股份有限公司 |
发明人 | 赵贵余;喻红 |
代理机构 | 暂无 | 代理人 | 暂无 |
摘要
本发明公开了一种对网管系统故障进行远程诊断定位的方法及其系统,其中该方法包括:故障信息采集步骤,用于实时监控所述网管系统的运行状态,采集所述网管系统的故障信息;故障诊断定位步骤,用于对所述故障信息进行数据分析,诊断并定位故障,将得到的故障诊断定位结果反馈给所述网管系统。本发明克服了网管系统维护人员必须到事故现场收集数据、解决问题的缺点,提高了故障解决效率,节省了投入到网管系统维护中的经济成本。减少了重复性故障的解决次数,在开发人员统一解决故障的同时,总结经验教训,提高了后续网管系统的质量。
1.一种对网管系统故障进行远程诊断定位的方法,其特征在于,包括:
故障信息采集步骤,用于实时监控所述网管系统的运行状态,采集所述网管系统的故障信息,所述故障信息包括:网管配置数据备份信息、网元之间的通讯信息、PC机运行信息、网管子系统参数信息和报表信息;
故障诊断定位步骤,用于对所述故障信息进行数据分析,诊断并定位故障,将得到的故障诊断定位结果反馈给所述网管系统,具体包括:
分析网元之间的通讯信息,判断网元之间的通讯是否正常;
分析PC机运行信息,判断网管系统所在操作系统的运行情况;
分析网管各子系统参数,获取网管子系统运行情况,判断网管系统内部是否运行正常;
分析报表信息,判断网管系统出现问题的开始时间、问题来源;
根据网管配置数据备份信息,搭建相似的网络环境,模拟网管系统运行;
综合上述分析,找出故障点和导致的原因。
2.根据权利要求1所述的对网管系统故障进行远程诊断定位的方法,其特征在于,所述故障信息采集步骤中,进一步包括:
以信息定时采集方式,或在所述网管系统出现故障时进行信息采集的方式采集所述故障信息的步骤。
3.根据权利要求1或2所述的对网管系统故障进行远程诊断定位的方法,其特征在于,所述故障信息采集步骤中,进一步包括:
通过远程连接方式或邮件方式将所述故障信息发送至所述故障诊断定位步骤的步骤。
4.根据权利要求1或2所述的对网管系统故障进行远程诊断定位的方法,其特征在于,所述故障诊断定位步骤中,进一步包括:
所述网管系统根据所述故障诊断定位结果排除故障的步骤。
5.一种对网管系统故障进行远程诊断定位的系统,其特征在于,包括:
信息采集模块,设置于所述网管系统上,用于实时监控所述网管系统的运行状态,采集所述网管系统的故障信息,所述故障信息包括:网管配置数据备份信息、网元之间的通讯信息、PC机运行信息、网管子系统参数信息和报表信息;
信息分析中心,连接所述信息采集模块,用于接收所述信息采集模块发送的所述故障信息,对所述故障信息进行数据分析,诊断并定位故障,将得到的故障诊断定位结果反馈给所述网管系统,所述信息分析中心具体用于:
分析网元之间的通讯信息,判断网元之间的通讯是否正常;
分析PC机运行信息,判断网管系统所在操作系统的运行情况;
分析网管各子系统参数,获取网管子系统运行情况,判断网管系统内部是否运行正常;
分析报表信息,判断网管系统出现问题的开始时间、问题来源;
根据网管配置数据备份信息,搭建相似的网络环境,模拟网管系统运行;
综合上述分析,找出故障点和导致的原因。
6.根据权利要求5所述的对网管系统故障进行远程诊断定位的系统,其特征在于,所述信息采集模块以信息定时采集方式,或在所述网管系统出现故障时进行信息采集的方式采集所述故障信息。
7.根据权利要求5或6所述的对网管系统故障进行远程诊断定位的系统,其特征在于,所述信息采集模块在所述网管系统启动时自动启动,或在所述网管系统启动后根据需要进行控制启动。
8.根据权利要求5或6所述的对网管系统故障进行远程诊断定位的系统,其特征在于,所述信息采集模块通过与所述信息分析中心之间的远程连接或邮件将所述故障信息发送给所述信息分析中心。
9.根据权利要求5或6所述的对网管系统故障进行远程诊断定位的系统,其特征在于,所述故障诊断定位结果包括问题诊断说明文档、解决说明文档。
一种对网管系统故障进行远程诊断定位的方法及其系统 \n技术领域\n[0001] 本发明涉及光通讯领域的测试技术,特别是涉及一种对网管系统故障进行远程诊断定位的方法及其系统。 \n背景技术\n[0002] 随着电信业务的不断扩大,网络管理系统(简称网管系统/网管)的使用也相应增加。在网管系统所实现的功能不断创新与成熟中,各种问题也随之而来。过去的网管系统具有管理范围单一,管理网元数目少,实现的功能简单等特点,即使出现问题,也比较容易定位,容易解决。但是随着网络规模的扩大,市场中使用的网管系统数量增加,单个网管系统管理的网元数据也渐渐增多,网管系统使用过程中,经常会出现一些新的问题;使用的网管系统数量增加以后,操作的人员增多,加大了问题暴露的几率;有些运营系统维护网管系统的人员增多也不可避免的导致一些操作上的误差,引入了非故障的错误操作;另外,单个网管系统管理的网元数量的增加,也会引入内存使用、数据库等效率方面的问题。 [0003] 上述几个因素引发的问题,有些问题网管系统使用者无法自行解决,必须由专业技术人员进行分析定位。一方面,专业技术人员不可能每时每刻都在每个工程现场;另一方面,依靠大量的工程维护人员对网管系统进行现场诊断,存在周期长,成本高,效率低的问题。因此,有必要提供一种远程故障定位系统,帮助专业技术人员在本地即可分析、定位和解决出现的问题。 \n[0004] 专利号为02141738的中国专利文件中,介绍了一种通讯系统故障诊断方法和系统,其中包括了故障申报、故障定位、故障解决几部分过程,通过以上过程来对故障进行诊断以解决网络中存在的问题,但该专利文件仅是针对网络通讯的故障进行诊断,并不能针对网管系统的故障进行诊断,因此有必要提出一种网管系统的故障进行诊断的方法或系统。 \n发明内容\n[0005] 本发明所要解决的技术问题在于提供一种对网管系统故障进行远程诊断定位的方法及其系统,用于解决现有技术中出现的由于大量工程维护人员对网管系统进行现场诊断导致的周期长、成本高、效率低的缺点,以及解决一些需要专业技术人员才能分析定位的故障。 \n[0006] 为了实现上述目的,本发明提供了一种对网管系统故障进行远程诊断定位的方法,其特征在于,包括: \n[0007] 故障信息采集步骤,用于实时监控所述网管系统的运行状态,采集所述网管系统的故障信息,所述故障信息包括:网管配置数据备份信息、网元之间的通讯信息、PC机运行信息、网管子系统参数信息和报表信息; \n[0008] 故障诊断定位步骤,用于对所述故障信息进行数据分析,诊断并定位故障,将得到的故障诊断定位结果反馈给所述网管系统,具体包括: \n[0009] 分析网元之间的通讯信息,判断网元之间的通讯是否正常; \n[0010] 分析PC机运行信息,判断网管系统所在操作系统的运行情况; [0011] 分析网管各子系统参数,获取网管子系统运行情况,判断网管系统内部是否运行正常; \n[0012] 分析报表信息,判断网管系统出现问题的开始时间、问题来源; [0013] 根据网管配置数据备份信息,搭建相似的网络环境,模拟网管系统运行; [0014] 综合上述分析,找出故障点和导致的原因。 \n[0015] 所述的对网管系统故障进行远程诊断定位的方法,其中,所述故障信息采集步骤中,进一步包括: \n[0016] 以信息定时采集方式,或在所述网管系统出现故障时进行信息采集的方式采集所述故障信息的步骤。 \n[0017] 所述的对网管系统故障进行远程诊断定位的方法,其中,所述故障信息采集步骤中,进一步包括: \n[0018] 通过远程连接方式或邮件方式将所述故障信息发送至所述故障诊断定位步骤的步骤。 \n[0019] 所述的对网管系统故障进行远程诊断定位的方法,其中,所述故障诊断定位步骤中,进一步包括: \n[0020] 所述网管系统根据所述故障诊断定位结果排除故障的步骤。 \n[0021] 为了实现上述目的,本发明还提供了一种对网管系统故障进行远程诊断定位的系统,其特征在于,包括: \n[0022] 信息采集模块,设置于所述网管系统上,用于实时监控所述网管系统的运行状态,采集所述网管系统的故障信息,所述故障信息包括:网管配置数据备份信息、网元之间的通讯信息、PC机运行信息、网管子系统参数信息和报表信息; \n[0023] 信息分析中心,连接所述信息采集模块,用于接收所述信息采集模块发送的所述故障信息,对所述故障信息进行数据分析,诊断并定位故障,将得到的故障诊断定位结果反馈给所述网管系统,所述信息分析中心具体用于: \n[0024] 分析网元之间的通讯信息,判断网元之间的通讯是否正常; \n[0025] 分析PC机运行信息,判断网管系统所在操作系统的运行情况; [0026] 分析网管各子系统参数,获取网管子系统运行情况,判断网管系统内部是否运行正常; \n[0027] 分析报表信息,判断网管系统出现问题的开始时间、问题来源; [0028] 根据网管配置数据备份信息,搭建相似的网络环境,模拟网管系统运行; [0029] 综合上述分析,找出故障点和导致的原因。 \n[0030] 所述的对网管系统故障进行远程诊断定位的系统,其中,所述信息采集模块以信息定时采集方式,或在所述网管系统出现故障时进行信息采集的方式采集所述故障信息。 [0031] 所述的对网管系统故障进行远程诊断定位的系统,其中,所述信息采集模块在所述网管系统启动时自动启动,或在所述网管系统启动后根据需要进行控制启动。 [0032] 所述的对网管系统故障进行远程诊断定位的系统,其中,所述信息采集模块通过与所述信息分析中心之间的远程连接或邮件将所述故障信息发送给所述信息分析中心。 [0033] 所述的对网管系统故障进行远程诊断定位的系统,其中,所述故障诊断定位结果包括问题诊断说明文档、解决说明文档。 \n[0034] 本发明的有益技术效果: \n[0035] 与现有技术相比,本发明提供的一种用于对网管系统故障进行远程诊断定位的方法及其系统,克服了网管系统维护人员必须到事故现场收集数据、解决问题的缺点,提高了故障解决效率,节省了投入到网管系统维护中的经济成本。 \n[0036] 另外,故障远程自动搜集信息,统一解决问题的方式,减少了重复性故障的解决次数,在开发人员统一解决故障的同时,总结经验教训,提高了后续网管系统的质量。 [0037] 以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。 附图说明\n[0038] 图1为本发明对网管系统故障进行远程诊断定位的总体架构图; [0039] 图2为本发明对网管系统故障进行远程诊断定位的方法流程图; [0040] 图3为本发明的远程故障诊断定位实施例的方法流程图。 \n具体实施方式\n[0041] 下面结合附图和具体实施方式对本发明的技术方案作进一步更详细的描 述。 [0042] 如图1所示,为本发明对网管系统故障进行远程诊断定位的总体架构图。该图中给了对网管系统故障进行远程诊断定位的远程诊断定位系统100的总体架构,该系统100包括:信息采集模块10、信息分析中心20。 \n[0043] 信息采集模块10设置网管系统30上,用于采集、保存、发送网管系统30以及运行环境等参数信息。信息采集模块10对信息的采集可以灵活控制,可以设置为定时采集信息,也可以设置为只在出现故障的时候采集需要的信息。 \n[0044] 信息采集模块10采集的信息是指所有对故障诊断具有参考价值的内容,包括但不限于:网管配置数据备份信息、网元之间的通讯信息、PC机运行信息、网管子系统参数信息、报表信息。 \n[0045] 1)网管配置数据备份信息,用于信息分析中心在定位问题时,搭建相似的网络环境; \n[0046] 2)网元之间的通讯信息,用于判断网元之间的通讯是否正常; [0047] 3)PC机运行信息,用于判断网管系统所在操作系统的运行情况;获取各种进程的内存使用以及CPU占用情况,并予以保存; \n[0048] 4)网管子系统参数信息,用于根据各网管子系统的详细信息,获取网管子系统运行情况,判断网管系统内部是否运行正常; \n[0049] 5)报表信息,用于分析最近一段时间内的各种历史数据,根据这些历史数据判断网管系统出现问题的开始时间、问题来源。 \n[0050] 信息分析中心20,连接信息采集模块10,获取信息采集模块10采集的故障信息,对故障信息进行数据分析,得到故障诊断定位信息或故障诊断定位结果,并将其反馈给网管系统30。 \n[0051] 如图2所示,为本发明对网管系统故障进行远程诊断定位的方法流程图。该方法流程包括如下步骤: \n[0052] 步骤S201,在网管系统30中,设置信息采集模块10。 \n[0053] 步骤S202,启动信息采集模块10,实时监控网管系统30的运行状态。 [0054] 进一步地,该步骤包括以下分步骤: \n[0055] a1)启动信息采集模块10; \n[0056] 信息采集模块10可以在网管系统30启动时自动启动,也可以在网管系统 30启动后,根据需要由网管操作人员手工控制启动; \n[0057] a2)信息采集模块10对网管系统30的运行状态进行实时监控,根据信息采集设定方式完成对网管系统30以及运行环境等数据的采集和保存。 \n[0058] 步骤S203,信息采集模块10将采集的故障信息发送给信息分析中心20。 [0059] 该步骤中,信息采集模块10在采集到故障信息后,与信息分析中心20建立远程连接,将采集的故障信息传送给信息分析中心20。或者,以邮件的方式,将采集到的故障信息发送到信息分析中心20。 \n[0060] 步骤S204,信息分析中心20对故障信息进行数据分析,诊断并定位故障,得到故障诊断定位信息。 \n[0061] 进一步地,该步骤包括以下分步骤: \n[0062] b1)分析网元之间的通讯信息,判断网元之间的通讯是否正常; [0063] b2)分析PC机运行信息,包括但不限于各种进程的内存使用、CPU占用情况; [0064] b3)分析网管各子系统参数,根据各子系统详细的信息,获取网管子系统运行情况,判断网管系统30内部是否运行正常; \n[0065] b4)分析报表信息,包括最近一段时间的告警信息、操作日志等。根据这些历史信息来判断网管系统30出现问题的开始时间、问题来源; \n[0066] b5)根据网管配置数据备份信息,搭建相似的网络环境,模拟网管系统30运行; [0067] b6)综合上述分析,找出故障点和导致的原因。 \n[0068] 步骤S205,信息分析中心20将故障诊断定位信息反馈给网管系统30。 [0069] 如图3所示,为本发明的远程故障诊断定位实施例的方法流程图。该图是以一个网元管理系统为例,说明本发明实现方案的具体工作过程。本实施例中的故障原因是DCN网络中的某个网元控制板出现内存碎片后,引发的网元脱管问题。 \n[0070] 由于现场的某个网元经常出现脱管问题,每次复位网元控制板以后,可正常工作一段时间,然后又会脱管,无法找到原因,所以现场操作人员手工启动了信息采集模块10。\n启动后,信息采集模块10开始收集信息,然后发送给信息分析中心20来处理。信息分析中心20将分析的结果发送回DCN(DigitalCommunication Network,数字通信网)网络,协助解决问题。 \n[0071] 结合图1、2,该实施例的方法流程具体包括如下步骤: \n[0072] 步骤S301,在网管系统30中,设置信息采集模块10。 \n[0073] 该步骤中,安装网管系统30时,同时安装信息采集模块10,并在信息采集模块10中,设置采集如下信息: \n[0074] c1)网管配置数据备份信息; \n[0075] c2)网元之间的通讯信息; \n[0076] c3)PC机运行状态参数,包括当前总的内存使用情况、各进程的内存使用情况、当前CPU使用情况、各进程的线程句柄数、GDI句柄数; \n[0077] c4)网管子系统参数信息; \n[0078] c5)网管配置报表、告警数据报表、性能数据报表、操作日志报表; [0079] c6)设置为只在出现故障的时候采集需要的信息。 \n[0080] 步骤S302,启动信息采集模块10,实时监控网管系统30的运行状态。 [0081] 在实施例中,现场维护人员没有在安装网管系统30之后马上启动信息采集模块\n10,在发现某网元经常脱管问题后,启动了信息采集模块10。信息采集模块10启动后,开始采集信息。 \n[0082] c1’)网管系统30自动备份网管系统30的当前配置数据,包括所有网元的配置信息,以及网管系统30的一些设置。 \n[0083] 自动备份功能启动以后,判断网管系统30的备份功能正常运行,所以采取了立即备份的方式,备份了当前配置数据; \n[0084] c2’)自动采集网元之间的通讯信息。 \n[0085] 信息采集模块10通过Telnet的方式,登陆到与DCN直接相连的网元控制板中,获取脱管网元的相关路由信息,并以文本文件的形式保存到指定位置; \n[0086] c3’)采集PC机运行状态参数,包括当前总的内存使用情况、各进程的内存使用情况、当前CPU使用情况、各进程的线程句柄数、GDI(Graphics DeviceInterface,图形设备接口)句柄数,并保存; \n[0087] c4’)信息采集模块10自动打开网管系统30的调试开关,获取网管参数信息,然后再自动关闭调试信息。 \n[0088] 用一个调试开关来控制打印各模块、各子系统的参数信息,调试开关打开以后,获取网管系统30自动生成的一些日志文件,日志中记录了各个模块之间的交互信息,各模块自身的运行情况。还包括了所有网元的网元控制板内存 使用情况,复位记录等相关信息; [0089] c5’)自动备份报表信息,将网管数据库中还没有及时备份的历史数据进行备份到磁盘的操作。其中,历史告警数据用来判断网元的运行情况,操作日志用来查看网管系统30对网元的操作记录,以及其他一些类型的历史数据。 \n[0090] 此时,所有故障定位相关信息已经收集完成。 \n[0091] 步骤S303,信息采集模块10将采集的故障信息发送给信息分析中心20。 [0092] 该步骤中,信息采集模块10在采集到故障信息后,与信息分析中心20建立远程连接,将采集的信息传送给信息分析中心20。 \n[0093] 该步骤中,网管系统30以邮件的方式,将信息采集模块10采集到的故障信息发送给信息分析中心20。 \n[0094] 步骤S304,信息分析中心20对接收的故障信息进行数据分析,诊断并定位故障,得到故障诊断定位信息。 \n[0095] 该步骤中,信息分析中心20接收到网管系统30发送的邮件后,开始进行数据分析。首先根据报表信息中的系统运行日志分析故障现象。从系统运行日志的网元接入事件可以得知其中一个网元频繁的脱管,针对这个问题开始分析。 \n[0096] d1)分析网元之间的通讯信息,根据路由信息分析网元之间的ECC(Embedded Control Channel,嵌入式控制通道)通道是否正常。判断网元控制板的路由信息,没有异常记录。 \n[0097] d2)分析PC机运行信息。此故障没有引起PC机各参数的异常,说明网管系统30没有异常模块。 \n[0098] d3)分析网管各子系统参数,判断网管各子系统运行状态。网管系统30打开调试开关,获取网管系统30与网元之间的一些参数信息。从获取的信息中发现,脱管网元的网元控制板的内存即将耗尽。使用内存分析工具得知,内存耗尽是内存碎片过多导致。 [0099] d4)分析报表信息,查看出现故障前网管系统30上记录的告警、性能、业务的工作情况以及用户所作的操作。由这些信息反映出,网元的业务工作一直没有受到影响,没有业务相关告警产生,判断出业务单板的运行是正常的。 \n[0100] d5)根据网管配置数据备份信息,查看网元之间的连接、业务流向,搭建相似的网络环境,模拟网管系统30运行;恢复数据以后,察看故障网元与周 围网元的组网方式,配合第1个获取的路由信息分析,网络运行正常网元的脱管没有影响到ECC通道的通讯连接。 [0101] d6)综合上述分析,根据网元的脱管记录和NCP(Network ControlProcessor,网络控制处理器)的内存使用情况,找出故障点和导致的原因,网元控制板上的内存碎片导致了网元控制板的内存耗尽,进而引发网元脱管。 \n[0102] 解决上述问题的方法采用加大内存,或者修改内存使用方式,进行碎片整理,或者定期复位等等。 \n[0103] 根据故障按照发生的现象,将此问题归类为网元脱管问题。问题分析完成后,由相关技术人员完成问题诊断说明文档及解决说明文档,保存到问题库中,以备下次直接调用。 [0104] 步骤S305,信息分析中心20将故障诊断定位信息反馈给网管系统30。 [0105] 该步骤中,信息分析中心20将故障诊断定位信息,如问题诊断说明文档和解决说明文档以附件的方式回复网管系统30发送的邮件。出现问题的网管系统30根据回复邮件中的解决办法排除问题。 \n[0106] 本发明提供了一种用于对网管系统故障进行远程诊断定位的方法,以解决市场中出现的由于大量工程维护人员对网管系统进行现场诊断导致的周期长、成本高、效率低的缺点,以及解决一些需要专业技术人员才能分析定位的故障。 \n[0107] 当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
法律信息
- 2012-03-07
- 2008-08-06
- 2008-06-11
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2003-07-16
|
2001-12-31
| | |
2
| |
2007-10-03
|
2006-05-19
| | |
3
| |
2007-08-29
|
2005-07-01
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |