著录项信息
专利名称 | 数据处理的故障检测方法和系统 |
申请号 | CN201310136207.7 | 申请日期 | 2013-04-18 |
法律状态 | 暂无 | 申报国家 | 中国 |
公开/公告日 | 2014-10-22 | 公开/公告号 | CN104112056A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F19/00 | IPC分类号 | G06F19/00查看分类表>
|
申请人 | 腾讯科技(深圳)有限公司 | 申请人地址 | 广东省深圳市南山区高新区科技中一路腾讯大厦***
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 腾讯科技(深圳)有限公司,腾讯云计算(北京)有限责任公司 | 当前权利人 | 腾讯科技(深圳)有限公司,腾讯云计算(北京)有限责任公司 |
发明人 | 廖龙;秦晓强;答治茜;罗建国 |
代理机构 | 广州华进联合专利商标代理有限公司 | 代理人 | 何平;邓云鹏 |
摘要
本发明涉及一种数据处理的故障检测方法和系统。所述方法包括:对数据执行运算逻辑;依次判断是否逻辑失败,是否系统错误,是否超过当前的时间阈值;当满足逻辑失败、系统错误、超过当前时间阈值中任一项时,均发送告警信息,并重新对数据执行运算逻辑。上述数据处理的故障检测方法和系统,通过逐步检测运算失败的可能情况,准确的区分逻辑失败、系统错误和超过时间阈值导致的失败情况,细化了运算失败的原因,提高了检测的准确性,且在失败后发送告警信息,起到了有效的警示作用,并在失败后进行重试,保证了数据处理的稳定。
数据处理的故障检测方法和系统
技术领域
[0001] 本发明涉及数据处理领域,特别是涉及一种数据处理的故障检测方法和系统。
背景技术
[0002] 随着信息技术的发展,各种各样的数据产生了,如安装在工业设备、汽车、电表上的数码传感器测量和传递的有关位置、运动、震动、温度、湿度以及空气中化学物质的变化等数据,如此形成了大数据,即海量数据。
[0003] 目前对大数据处理的方案有很多,如MapReduce方案,其使用Map(映射)和Reduce(化简)为主要操作对大数据进行并行运算。MapReduce方案把数据切分为小块,每块数据处理设置一个超时时间,如果运算超时则认为该次运算失败,需重新执行一次运算。然而对数据块处理过程中出现故障的原因有多种,目前仅能检测超时导致的运算失败,检测不准确。
发明内容
[0004] 基于此,有必要针对数据处理的故障检测不准确问题,提供一种数据处理的故障检测方法,能提高检测的准确性。
[0005] 此外,还有必要针对数据处理的故障检测不准确问题,提供一种数据处理的故障检测系统,能提高检测的准确性。
[0006] 一种数据处理的故障检测方法,包括:
[0007] 对数据执行运算逻辑;
[0008] 依次判断是否逻辑失败,是否系统错误,是否超过当前的时间阈值;
[0009] 当满足逻辑失败、系统错误、超过当前时间阈值中任一项时,均发送告警信息,并重新对数据执行运算逻辑。
[0010] 在其中一个实施例中,所述方法还包括步骤:
[0011] 当运算逻辑成功、未出现系统错误且未超过当前的时间阈值时,更新时间阈值。
[0012] 在其中一个实施例中,所述当运算逻辑成功、未出现系统错误且未超过当前的时间阈值时,更新时间阈值的步骤包括:
[0013] 获取一次完整的逻辑处理过程所耗费的时间,所述逻辑处理过程包括判断是否逻辑失败,是否系统错误,是否超过当前的时间阈值;
[0014] 根据所述耗费的时间及当前的时间阈值更新时间阈值。
[0015] 在其中一个实施例中,所述根据所述耗费的时间及当前的时间阈值更新时间阈值的步骤包括:
[0016] 根据所述耗费时间和当前的时间阈值分别对应的权值加权求和得到更新的时间阈值。
[0017] 在其中一个实施例中,所述发送告警信息的步骤包括:
[0018] 以短信方式或即时通讯方式发送告警信息。
[0019] 一种数据处理的故障检测系统,包括:
[0020] 执行模块,用于对数据执行运算逻辑;
[0021] 判断模块,用于依次判断是否逻辑失败,是否系统错误,是否超过当前的时间阈值;
[0022] 告警模块,用于当满足逻辑失败、系统错误、超过当前的时间阈值中任一项时,均发送告警信息,并重新由执行模块对数据执行运算逻辑。
[0023] 在其中一个实施例中,所述系统还包括:
[0024] 更新模块,用于当运算逻辑成功、未出现系统错误且未超过当前的时间阈值时,更新时间阈值。
[0025] 在其中一个实施例中,所述更新模块还用于获取一次完整的逻辑处理过程所耗费的时间,所述逻辑处理过程包括判断是否逻辑失败,是否系统错误,是否超过当前的时间阈值,以及根据所述耗费的时间及当前的时间阈值更新时间阈值。
[0026] 在其中一个实施例中,所述更新模块还用于根据所述耗费时间和当前的时间阈值分别对应的权值加权求和得到更新的时间阈值。
[0027] 在其中一个实施例中,所述告警模块还用于以短信方式或即时通讯方式发送告警信息。
[0028] 上述数据处理的故障检测方法和系统,通过逐步检测运算失败的可能情况,准确的区分逻辑失败、系统错误和超过时间阈值导致的失败情况,细化了运算失败的原因,提高了检测的准确性,且在失败后发送告警信息,起到了有效的警示作用,并在失败后进行重试,保证了数据处理的稳定。
附图说明
[0029] 图1为一个实施例中数据处理的故障检测方法的流程图;
[0030] 图2为一个实施例中更新时间阈值的流程图;
[0031] 图3为一个实施例中数据处理的故障检测系统的结构框图;
[0032] 图4为另一个实施例中数据处理的故障检测系统的结构框图。
具体实施方式
[0033] 下面结合具体的实施例及附图对数据处理的故障检测方法和系统的技术方案进行详细的描述,以使其更加清楚。
[0034] 如图1所示,为一个实施例中数据处理的故障检测方法的流程图。该数据处理的故障检测方法运行于终端上。该终端可为膝上便携式计算机、台式计算机、平板电脑、智能手机等。该数据处理的故障检测方法,包括:
[0035] 步骤S102,对数据执行运算逻辑。
[0036] 具体的,将大数据分成多个小块数据,开启子进程对每个小块数据执行运算逻辑。
[0037] 步骤S104,判断是否逻辑失败,若是,执行步骤S120,若否,执行步骤S106。
[0038] 具体的,判断是否逻辑失败是根据各个运算逻辑来确定的,根据不同的计算任务采用不同的运算逻辑,例如计算用户的状态、计算辅助工具的有效时限等。运算逻辑调用了函数,每个函数处理完数据后,必须有一个返回码表示处理的结果,如非0表示逻辑失败,0表示逻辑成功,即可判断返回码来确定是否逻辑失败。
[0039] 步骤S106,进一步判断是否系统错误,若是,执行步骤S120,若否,执行步骤S108。
[0040] 具体的,系统错误包括指针越界等,指针越界是指超过了指针变量的作用范围。出现系统错误时,会导致子进程结束,并且有对应的状态,查询该对应的状态可得到系统错误的原因。
[0041] 步骤S108,进一步判断是否超过当前的时间阈值,若是,执行步骤S120,若否,执行步骤S110。
[0042] 具体的,每一次对数据执行运算逻辑处理均设定了时间阈值,当前的时间阈值是指该次运算逻辑处理的时间阈值,当超过当前的时间阈值时,需重新执行运算逻辑。设置时间阈值是为了防止长时间无处理结果,降低了运算效率。
[0043] 步骤S110,更新时间阈值。
[0044] 具体的,当运算逻辑成功、未出现系统错误且未超过当前的时间阈值时,更新时间阈值。
[0045] 如图2所示,为一个实施例中更新时间阈值的流程图。该更新时间阈值,包括:
[0046] 步骤S202,获取一次完整的逻辑处理过程所耗费的时间,该逻辑处理过程包括判断是否逻辑失败,是否系统错误,是否超过当前的时间阈值。
[0047] 具体的,该逻辑处理过程所耗费的时间是指完成一次完整的判断是否逻辑失败、是否系统错误、是否超过当前的时间阈值所耗费的时间。
[0048] 步骤S204,根据该耗费的时间及当前的时间阈值更新当前时间阈值。
[0049] 具体的,可采用加权法求取更新的时间阈值。根据该耗费时间和当前的时间阈值分别对应的权值加权求和得到更新的时间阈值。如耗费时间Th,对应的权值为a,当前的时间阈值T,对应的权值为b,更新的时间阈值T',则T'=Th*a+T*b,a与b之和为1。
[0050] 在其他实施例中,可采用平均值法求取更新的时间阈值。如T'=(Th+T)/2。
[0051] 在其他实施例中,也可采用前n次的时间阈值和耗费的时间加权求和的方式得到更新的时间阈值,如前n次的时间阈值分别为T1、T2、…、Tn,对应的权值分别为a1、a2、…、an,更新的时间阈值T'=T1*a1+T2*a2+,…,+Tn*an+Th*a,其中,a+a1+a2+…+an=1。
[0052] 在其他实施例中,也可采用当前n次的时间阈值和耗费的时间平均值作为更新的时间阈值。
[0053] 通过动态更新时间阈值,灵活性较好,不易引起反复处理某块数据,提高了数据处理的稳定性。
[0054] 步骤S120,发送告警信息,并返回步骤S102。
[0055] 具体的,当满足逻辑失败、系统错误、超过当前的时间阈值中任一项时,均发送告警信息,并重新对数据执行运算逻辑。可以以短信方式或即时通讯方式发送告警信息,即以短信方式发送给移动终端,或以即时通讯方式发送给即时通讯客户端,如微信客户端。该告警信息可为文本信息、图片信息、图文组合信息、语音信息或视频信息等。文本信息可为“处理错误”文字提醒等。图片信息可为悲伤表情或“X”图片符号等。图文组合信息可为悲伤表情加文字说明等。语音信息可为一段错误提示语音。视频信息可为一段表示错误的动画提醒等。
[0056] 此外,逻辑失败、系统错误及超过时间阈值所发送的告警信息可相同,也可不同,根据需要选定。
[0057] 上述数据处理的故障检测系统,通过逐步检测运算失败的可能情况,准确的区分逻辑失败、系统错误和超过时间阈值导致的失败情况,细化了运算失败的原因,提高了检测的准确性,且在失败后发送告警信息,起到了有效的警示作用,并在失败后进行重试,保证了数据处理的稳定。
[0058] 如图3所示,为一个实施例中数据处理的故障检测系统的结构框图。该数据处理的故障检测系统运行于终端上。该数据处理的故障检测系统,包括执行模块320、判断模块340和告警模块360。其中:
[0059] 执行模块320用于对数据执行运算逻辑。
[0060] 具体的,将大数据分成多个小块数据,开启子进程对每个小块数据执行运算逻辑。
[0061] 判断模块340用于依次判断是否逻辑失败,是否系统错误,是否超过当前的时间阈值。
[0062] 具体的,判断是否逻辑失败是根据各个运算逻辑来确定的,根据不同的计算任务采用不同的运算逻辑,例如计算用户的状态、计算辅助工具的有效时限等。运算逻辑调用了函数,每个函数处理完数据后,必须有一个返回码表示处理的结果,如非0表示逻辑失败,0表示逻辑成功,即可判断返回码来确定是否逻辑失败。
[0063] 系统错误包括指针越界等,指针越界是指超过了指针变量的作用范围。出现系统错误时,会导致子进程结束,并且有对应的状态,查询该对应的状态可得到系统错误的原因。
[0064] 每一次对数据执行运算逻辑处理均设定了时间阈值,当前的时间阈值是指该次运算逻辑处理的时间阈值,当超过当前的时间阈值时,需重新执行运算逻辑。设置时间阈值是为了防止长时间无处理结果,降低了运算效率。
[0065] 告警模块360用于当满足逻辑失败、系统错误、超过当前时间阈值中任一项时,均发送告警信息,并重新由执行模块320对数据执行运算逻辑。
[0066] 具体的,当满足逻辑失败、系统错误、超过当前的时间阈值中任一项时,均发送告警信息,并重新对数据执行运算逻辑。告警模块360可以以短信方式或即时通讯方式发送告警信息,即以短信方式发送给移动终端,或以即时通讯方式发送给即时通讯客户端,如微信客户端。该告警信息可为文本信息、图片信息、图文组合信息、语音信息或视频信息等。文本信息可为“处理错误”文字提醒等。图片信息可为悲伤表情或“X”图片符号等。图文组合信息可为悲伤表情加文字说明等。语音信息可为一段错误提示语音。视频信息可为一段表示错误的动画提醒等。
[0067] 此外,逻辑失败、系统错误及超过时间阈值所发送的告警信息可相同,也可不同,根据需要选定。
[0068] 上述数据处理的故障检测系统,通过逐步检测运算失败的可能情况,准确的区分逻辑失败、系统错误和超过时间阈值导致的失败情况,细化了运算失败的原因,提高了检测的准确性,且在失败后发送告警信息,起到了有效的警示作用,并在失败后进行重试,保证了数据处理的稳定。
[0069] 如图4所示,为一个实施例中数据处理的故障检测系统的结构框体。该数据处理的故障检测系统除了包括执行模块320、判断模块340和告警模块360,还包括更新模块380。其中:
[0070] 更新模块380用于当运算逻辑成功、未出现系统错误且未超过当前的时间阈值时,更新时间阈值。
[0071] 更新模块380还用于获取一次完整的逻辑处理过程所耗费的时间,该逻辑处理过程包括判断是否逻辑失败,是否系统错误,是否超过当前时间阈值,以及根据所述耗费的时间及当前的时间阈值更新时间阈值。
[0072] 具体的,可采用加权法求取更新的时间阈值。更新模块380还用于根据该耗费时间和当前的时间阈值分别对应的权值加权求和得到更新的时间阈值。如耗费时间Th,对应的权值为a,当前的时间阈值T,对应的权值为b,更新的时间阈值T',则T'=Th*a+T*b,a与b之和为1。
[0073] 在其他实施例中,更新模块380可采用平均值法求取更新的时间阈值。如T'=(Th+T)/2。
[0074] 在其他实施例中,更新模块380也可采用前n次的时间阈值和耗费的时间加权求和的方式得到更新的时间阈值,如前n次的时间阈值分别为T1、T2、…、Tn,对应的权值分别为a1、a2、…、an,更新的时间阈值T'=T1*a1+T2*a2+,…,+Tn*an+Th*a,其中,a+a1+a2+…+an=
1。
[0075] 在其他实施例中,更新模块380也可采用当前n次的时间阈值和耗费的时间平均值作为更新的时间阈值。
[0076] 通过动态更新时间阈值,灵活性较好,不易引起反复处理某块数据,提高了数据处理的稳定性。
[0077] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
[0078] 以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
法律信息
- 2019-08-27
专利权的转移
登记生效日: 2019.08.07
专利权人由腾讯科技(深圳)有限公司变更为腾讯科技(深圳)有限公司
地址由518044 广东省深圳市福田区振兴路赛格科技园2栋东403室变更为518000 广东省深圳市南山区高新区科技中一路腾讯大厦35层
专利权人变更为腾讯云计算(北京)有限责任公司
- 2017-11-21
- 2015-09-23
实质审查的生效
IPC(主分类): G06F 19/00
专利申请号: 201310136207.7
申请日: 2013.04.18
- 2014-10-22
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2010-04-14
|
2009-09-29
| | |
2
| |
2006-06-28
|
2005-11-04
| | |
3
| |
2010-02-17
|
2009-08-31
| | |
4
| |
2011-11-09
|
2010-05-05
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |