首页专利查询专利详情

*来源于国家知识产权局数据，仅供参考，实际以国家知识产权局展示为准

数据处理的故障检测方法和系统

发明专利有效专利

申请号：
CN201310136207.7
IPC分类号：G06F19/00
申请日期：
2013-04-18
申请人：
腾讯科技（深圳）有限公司

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	数据处理的故障检测方法和系统
申请号	CN201310136207.7	申请日期	2013-04-18
法律状态	暂无	申报国家	中国
公开/公告日	2014-10-22	公开/公告号	CN104112056A
优先权	暂无	优先权号	暂无
主分类号	G06F19/00 ? IPC结构图谱： G 物理 G0 仪器 G06 计算；推算；计数 G06F 电数字数据处理（基于特定计算模型的计算机系统入G06N） G06F19/00 专门适用于特定应用的数字计算或数据处理的设备或方法（专门适用于特定功能的入G06F17/00；专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或数据处理方法入G06Q；医疗信息学入G16H）〔6，2006.01，2011.01，2018.01〕	IPC分类号	G06F19/00查看分类表>
申请人	腾讯科技（深圳）有限公司	申请人地址	广东省深圳市南山区高新区科技中一路腾讯大厦*** 变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	腾讯科技（深圳）有限公司,腾讯云计算(北京)有限责任公司	当前权利人	腾讯科技（深圳）有限公司,腾讯云计算(北京)有限责任公司
发明人	廖龙;秦晓强;答治茜;罗建国
代理机构	广州华进联合专利商标代理有限公司	代理人	何平;邓云鹏

摘要

本发明涉及一种数据处理的故障检测方法和系统。所述方法包括：对数据执行运算逻辑；依次判断是否逻辑失败，是否系统错误，是否超过当前的时间阈值；当满足逻辑失败、系统错误、超过当前时间阈值中任一项时，均发送告警信息，并重新对数据执行运算逻辑。上述数据处理的故障检测方法和系统，通过逐步检测运算失败的可能情况，准确的区分逻辑失败、系统错误和超过时间阈值导致的失败情况，细化了运算失败的原因，提高了检测的准确性，且在失败后发送告警信息，起到了有效的警示作用，并在失败后进行重试，保证了数据处理的稳定。

一种废料回收用机械手结构

发明授权

立即咨询

基于蔬菜种子的培养生根装置

实用新型

立即咨询

一种蔬菜种植用回耕装置

实用新型

立即咨询

一种蔬菜种苗机

实用新型

立即咨询

一种便携的辅助种植工具（农业种植，园艺种植）

实用新型

立即咨询

低信噪比弱小目标雷达回波信号识别装置及训练识别方法

发明授权

立即咨询

一种数据处理分析的跨境电商数据统计管理方法

发明授权

立即咨询

基于电商平台的层次化数据展示方法及系统（电子商务电商跨境电商外贸）

发明授权

立即咨询

用于电商平台的数据分类方法、装置、设备及存储介质（电子商务电商跨境电商外贸）

发明授权

立即咨询

一种锂电池保护电路及锂电池

实用新型

立即咨询

一种大容量锂离子电池组及电池套装

实用新型

立即咨询

一种建筑废弃物用粉料处理装置

实用新型

立即咨询

一种英语教学管理系统

发明授权

立即咨询

一种物联网场景下用于高效联邦学习的成本优化方法

发明授权

立即咨询

一种花生粕中多糖提取工艺的酶解装置

发明授权

立即咨询

一种外卖平台下单方法、装置及存储介质

发明授权

立即咨询

一种开口随动滚筒防乱绳绞车

发明授权

立即咨询

一种涡轮增压器执行器流水线上的检测装置

发明授权

立即咨询

一种机器人组装示范系统的活动工装

发明授权

立即咨询

一种电路控制开关

发明授权

立即咨询

数据处理的故障检测方法和系统
技术领域
[0001] 本发明涉及数据处理领域，特别是涉及一种数据处理的故障检测方法和系统。
背景技术
[0002] 随着信息技术的发展，各种各样的数据产生了，如安装在工业设备、汽车、电表上的数码传感器测量和传递的有关位置、运动、震动、温度、湿度以及空气中化学物质的变化等数据，如此形成了大数据，即海量数据。
[0003] 目前对大数据处理的方案有很多，如MapReduce方案，其使用Map（映射）和Reduce（化简）为主要操作对大数据进行并行运算。MapReduce方案把数据切分为小块，每块数据处理设置一个超时时间，如果运算超时则认为该次运算失败，需重新执行一次运算。然而对数据块处理过程中出现故障的原因有多种，目前仅能检测超时导致的运算失败，检测不准确。
发明内容
[0004] 基于此，有必要针对数据处理的故障检测不准确问题，提供一种数据处理的故障检测方法，能提高检测的准确性。
[0005] 此外，还有必要针对数据处理的故障检测不准确问题，提供一种数据处理的故障检测系统，能提高检测的准确性。
[0006] 一种数据处理的故障检测方法，包括：
[0007] 对数据执行运算逻辑；
[0008] 依次判断是否逻辑失败，是否系统错误，是否超过当前的时间阈值；
[0009] 当满足逻辑失败、系统错误、超过当前时间阈值中任一项时，均发送告警信息，并重新对数据执行运算逻辑。
[0010] 在其中一个实施例中，所述方法还包括步骤：
[0011] 当运算逻辑成功、未出现系统错误且未超过当前的时间阈值时，更新时间阈值。
[0012] 在其中一个实施例中，所述当运算逻辑成功、未出现系统错误且未超过当前的时间阈值时，更新时间阈值的步骤包括：
[0013] 获取一次完整的逻辑处理过程所耗费的时间，所述逻辑处理过程包括判断是否逻辑失败，是否系统错误，是否超过当前的时间阈值；
[0014] 根据所述耗费的时间及当前的时间阈值更新时间阈值。
[0015] 在其中一个实施例中，所述根据所述耗费的时间及当前的时间阈值更新时间阈值的步骤包括：
[0016] 根据所述耗费时间和当前的时间阈值分别对应的权值加权求和得到更新的时间阈值。
[0017] 在其中一个实施例中，所述发送告警信息的步骤包括：
[0018] 以短信方式或即时通讯方式发送告警信息。
[0019] 一种数据处理的故障检测系统，包括：
[0020] 执行模块，用于对数据执行运算逻辑；
[0021] 判断模块，用于依次判断是否逻辑失败，是否系统错误，是否超过当前的时间阈值；
[0022] 告警模块，用于当满足逻辑失败、系统错误、超过当前的时间阈值中任一项时，均发送告警信息，并重新由执行模块对数据执行运算逻辑。
[0023] 在其中一个实施例中，所述系统还包括：
[0024] 更新模块，用于当运算逻辑成功、未出现系统错误且未超过当前的时间阈值时，更新时间阈值。
[0025] 在其中一个实施例中，所述更新模块还用于获取一次完整的逻辑处理过程所耗费的时间，所述逻辑处理过程包括判断是否逻辑失败，是否系统错误，是否超过当前的时间阈值，以及根据所述耗费的时间及当前的时间阈值更新时间阈值。
[0026] 在其中一个实施例中，所述更新模块还用于根据所述耗费时间和当前的时间阈值分别对应的权值加权求和得到更新的时间阈值。
[0027] 在其中一个实施例中，所述告警模块还用于以短信方式或即时通讯方式发送告警信息。
[0028] 上述数据处理的故障检测方法和系统，通过逐步检测运算失败的可能情况，准确的区分逻辑失败、系统错误和超过时间阈值导致的失败情况，细化了运算失败的原因，提高了检测的准确性，且在失败后发送告警信息，起到了有效的警示作用，并在失败后进行重试，保证了数据处理的稳定。
附图说明
[0029] 图1为一个实施例中数据处理的故障检测方法的流程图；
[0030] 图2为一个实施例中更新时间阈值的流程图；
[0031] 图3为一个实施例中数据处理的故障检测系统的结构框图；
[0032] 图4为另一个实施例中数据处理的故障检测系统的结构框图。
具体实施方式
[0033] 下面结合具体的实施例及附图对数据处理的故障检测方法和系统的技术方案进行详细的描述，以使其更加清楚。
[0034] 如图1所示，为一个实施例中数据处理的故障检测方法的流程图。该数据处理的故障检测方法运行于终端上。该终端可为膝上便携式计算机、台式计算机、平板电脑、智能手机等。该数据处理的故障检测方法，包括：
[0035] 步骤S102，对数据执行运算逻辑。
[0036] 具体的，将大数据分成多个小块数据，开启子进程对每个小块数据执行运算逻辑。
[0037] 步骤S104，判断是否逻辑失败，若是，执行步骤S120，若否，执行步骤S106。
[0038] 具体的，判断是否逻辑失败是根据各个运算逻辑来确定的，根据不同的计算任务采用不同的运算逻辑，例如计算用户的状态、计算辅助工具的有效时限等。运算逻辑调用了函数，每个函数处理完数据后，必须有一个返回码表示处理的结果，如非0表示逻辑失败，0表示逻辑成功，即可判断返回码来确定是否逻辑失败。
[0039] 步骤S106，进一步判断是否系统错误，若是，执行步骤S120，若否，执行步骤S108。
[0040] 具体的，系统错误包括指针越界等，指针越界是指超过了指针变量的作用范围。出现系统错误时，会导致子进程结束，并且有对应的状态，查询该对应的状态可得到系统错误的原因。
[0041] 步骤S108，进一步判断是否超过当前的时间阈值，若是，执行步骤S120，若否，执行步骤S110。
[0042] 具体的，每一次对数据执行运算逻辑处理均设定了时间阈值，当前的时间阈值是指该次运算逻辑处理的时间阈值，当超过当前的时间阈值时，需重新执行运算逻辑。设置时间阈值是为了防止长时间无处理结果，降低了运算效率。
[0043] 步骤S110，更新时间阈值。
[0044] 具体的，当运算逻辑成功、未出现系统错误且未超过当前的时间阈值时，更新时间阈值。
[0045] 如图2所示，为一个实施例中更新时间阈值的流程图。该更新时间阈值，包括：
[0046] 步骤S202，获取一次完整的逻辑处理过程所耗费的时间，该逻辑处理过程包括判断是否逻辑失败，是否系统错误，是否超过当前的时间阈值。
[0047] 具体的，该逻辑处理过程所耗费的时间是指完成一次完整的判断是否逻辑失败、是否系统错误、是否超过当前的时间阈值所耗费的时间。
[0048] 步骤S204，根据该耗费的时间及当前的时间阈值更新当前时间阈值。
[0049] 具体的，可采用加权法求取更新的时间阈值。根据该耗费时间和当前的时间阈值分别对应的权值加权求和得到更新的时间阈值。如耗费时间Th，对应的权值为a，当前的时间阈值T，对应的权值为b，更新的时间阈值T'，则T'=Th*a+T*b，a与b之和为1。
[0050] 在其他实施例中，可采用平均值法求取更新的时间阈值。如T'=（Th+T）/2。
[0051] 在其他实施例中，也可采用前n次的时间阈值和耗费的时间加权求和的方式得到更新的时间阈值，如前n次的时间阈值分别为T1、T2、…、Tn，对应的权值分别为a1、a2、…、an，更新的时间阈值T'=T1*a1+T2*a2+，…，+Tn*an+Th*a，其中，a+a1+a2+…+an=1。
[0052] 在其他实施例中，也可采用当前n次的时间阈值和耗费的时间平均值作为更新的时间阈值。
[0053] 通过动态更新时间阈值，灵活性较好，不易引起反复处理某块数据，提高了数据处理的稳定性。
[0054] 步骤S120，发送告警信息，并返回步骤S102。
[0055] 具体的，当满足逻辑失败、系统错误、超过当前的时间阈值中任一项时，均发送告警信息，并重新对数据执行运算逻辑。可以以短信方式或即时通讯方式发送告警信息，即以短信方式发送给移动终端，或以即时通讯方式发送给即时通讯客户端，如微信客户端。该告警信息可为文本信息、图片信息、图文组合信息、语音信息或视频信息等。文本信息可为“处理错误”文字提醒等。图片信息可为悲伤表情或“X”图片符号等。图文组合信息可为悲伤表情加文字说明等。语音信息可为一段错误提示语音。视频信息可为一段表示错误的动画提醒等。
[0056] 此外，逻辑失败、系统错误及超过时间阈值所发送的告警信息可相同，也可不同，根据需要选定。
[0057] 上述数据处理的故障检测系统，通过逐步检测运算失败的可能情况，准确的区分逻辑失败、系统错误和超过时间阈值导致的失败情况，细化了运算失败的原因，提高了检测的准确性，且在失败后发送告警信息，起到了有效的警示作用，并在失败后进行重试，保证了数据处理的稳定。
[0058] 如图3所示，为一个实施例中数据处理的故障检测系统的结构框图。该数据处理的故障检测系统运行于终端上。该数据处理的故障检测系统，包括执行模块320、判断模块340和告警模块360。其中：
[0059] 执行模块320用于对数据执行运算逻辑。
[0060] 具体的，将大数据分成多个小块数据，开启子进程对每个小块数据执行运算逻辑。
[0061] 判断模块340用于依次判断是否逻辑失败，是否系统错误，是否超过当前的时间阈值。
[0062] 具体的，判断是否逻辑失败是根据各个运算逻辑来确定的，根据不同的计算任务采用不同的运算逻辑，例如计算用户的状态、计算辅助工具的有效时限等。运算逻辑调用了函数，每个函数处理完数据后，必须有一个返回码表示处理的结果，如非0表示逻辑失败，0表示逻辑成功，即可判断返回码来确定是否逻辑失败。
[0063] 系统错误包括指针越界等，指针越界是指超过了指针变量的作用范围。出现系统错误时，会导致子进程结束，并且有对应的状态，查询该对应的状态可得到系统错误的原因。
[0064] 每一次对数据执行运算逻辑处理均设定了时间阈值，当前的时间阈值是指该次运算逻辑处理的时间阈值，当超过当前的时间阈值时，需重新执行运算逻辑。设置时间阈值是为了防止长时间无处理结果，降低了运算效率。
[0065] 告警模块360用于当满足逻辑失败、系统错误、超过当前时间阈值中任一项时，均发送告警信息，并重新由执行模块320对数据执行运算逻辑。
[0066] 具体的，当满足逻辑失败、系统错误、超过当前的时间阈值中任一项时，均发送告警信息，并重新对数据执行运算逻辑。告警模块360可以以短信方式或即时通讯方式发送告警信息，即以短信方式发送给移动终端，或以即时通讯方式发送给即时通讯客户端，如微信客户端。该告警信息可为文本信息、图片信息、图文组合信息、语音信息或视频信息等。文本信息可为“处理错误”文字提醒等。图片信息可为悲伤表情或“X”图片符号等。图文组合信息可为悲伤表情加文字说明等。语音信息可为一段错误提示语音。视频信息可为一段表示错误的动画提醒等。
[0067] 此外，逻辑失败、系统错误及超过时间阈值所发送的告警信息可相同，也可不同，根据需要选定。
[0068] 上述数据处理的故障检测系统，通过逐步检测运算失败的可能情况，准确的区分逻辑失败、系统错误和超过时间阈值导致的失败情况，细化了运算失败的原因，提高了检测的准确性，且在失败后发送告警信息，起到了有效的警示作用，并在失败后进行重试，保证了数据处理的稳定。
[0069] 如图4所示，为一个实施例中数据处理的故障检测系统的结构框体。该数据处理的故障检测系统除了包括执行模块320、判断模块340和告警模块360，还包括更新模块380。其中：
[0070] 更新模块380用于当运算逻辑成功、未出现系统错误且未超过当前的时间阈值时，更新时间阈值。
[0071] 更新模块380还用于获取一次完整的逻辑处理过程所耗费的时间，该逻辑处理过程包括判断是否逻辑失败，是否系统错误，是否超过当前时间阈值，以及根据所述耗费的时间及当前的时间阈值更新时间阈值。
[0072] 具体的，可采用加权法求取更新的时间阈值。更新模块380还用于根据该耗费时间和当前的时间阈值分别对应的权值加权求和得到更新的时间阈值。如耗费时间Th，对应的权值为a，当前的时间阈值T，对应的权值为b，更新的时间阈值T'，则T'=Th*a+T*b，a与b之和为1。
[0073] 在其他实施例中，更新模块380可采用平均值法求取更新的时间阈值。如T'=（Th+T）/2。
[0074] 在其他实施例中，更新模块380也可采用前n次的时间阈值和耗费的时间加权求和的方式得到更新的时间阈值，如前n次的时间阈值分别为T1、T2、…、Tn，对应的权值分别为a1、a2、…、an，更新的时间阈值T'=T1*a1+T2*a2+，…，+Tn*an+Th*a，其中，a+a1+a2+…+an=
1。
[0075] 在其他实施例中，更新模块380也可采用当前n次的时间阈值和耗费的时间平均值作为更新的时间阈值。
[0076] 通过动态更新时间阈值，灵活性较好，不易引起反复处理某块数据，提高了数据处理的稳定性。
[0077] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random Access Memory，RAM）等。
[0078] 以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
1	CN101694580A	2010-04-14	2009-09-29	一种生产线设备的监控方法及系统有效专利	北京北方微电子基地设备工艺研究中心有限责任公司
2	CN1794124A	2006-06-28	2005-11-04	无人维护系统无效专利	刘宗明
3	CN101650688A	2010-02-17	2009-08-31	一种访问VM_IO地址空间的方法和用户态调试器有效专利	中兴通讯股份有限公司
4	CN102232825A	2011-11-09	2010-05-05	基于紫蜂的多功能睡眠护理和监测装置无效专利	陈澎