著录项信息
专利名称 | 一种大数据智能分析系统 |
申请号 | CN201611105651.2 | 申请日期 | 2016-12-05 |
法律状态 | 暂无 | 申报国家 | 中国 |
公开/公告日 | 2017-03-22 | 公开/公告号 | CN106528870A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 深圳万智联合科技有限公司 | 申请人地址 | 贵州省贵阳市观山湖区诚信北路81号大西南·富力中心A2栋11层6、7、8号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 贵州蓝梦工场科技有限公司 | 当前权利人 | 贵州蓝梦工场科技有限公司 |
发明人 | 孙良涛 |
代理机构 | 北京华识知识产权代理有限公司 | 代理人 | 刘艳玲 |
摘要
本发明提供了一种大数据智能分析系统,包括终端设备、数据缓存服务器以及中央处理服务器,所述中央处理服务器包括数据采集模块、数据分类模块、分类检测模块和检测融合模块,其中,所述中央处理服务器与所述数据缓存服务器相连接;所述终端设备与所述数据缓存服务器相连接。本发明的有益效果为:实现了大数据的收集与分析处理。
一种大数据智能分析系统\n技术领域\n[0001] 本发明涉及大数据领域,具体涉及一种大数据智能分析系统。\n背景技术\n[0002] 近年来,随着数据的急剧扩容和几何级的增长,如何充分利用包括影像数据在内的各种数据,搭建合理先进的数据大数据采集分析平台,为广大居民、科研人员及政府决策者提供服务和协助,必将成为未来信息化工作的重要方向。\n发明内容\n[0003] 针对上述问题,本发明旨在提供一种大数据智能分析系统。\n[0004] 本发明的目的采用以下技术方案来实现:\n[0005] 提供了一种大数据智能分析系统,包括终端设备、数据缓存服务器以及中央处理服务器,所述中央处理服务器包括数据采集模块、数据分类模块、分类检测模块和检测融合模块,其中,\n[0006] 所述中央处理服务器与所述数据缓存服务器相连接;\n[0007] 所述终端设备与所述数据缓存服务器相连接。\n[0008] 本发明的有益效果为:实现了大数据的收集与分析处理。\n附图说明\n[0009] 利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。\n[0010] 图1是本发明的结构连接示意图。\n[0011] 附图标记:\n[0012] 终端设备1、数据缓存服务器2、中央处理服务器3.\n具体实施方式\n[0013] 结合以下实施例对本发明作进一步描述。\n[0014] 参见图1,本实施例的一种大数据智能分析系统,包括终端设备1、数据缓存服务器\n2以及中央处理服务器3,所述中央处理服务器3包括数据采集模块、数据分类模块、分类检测模块和检测融合模块,其中,所述中央处理服务器3与所述数据缓存服务器2相连接;所述终端设备1与所述数据缓存服务器2相连接,所述数据采集模块用于采集需要进行检测的数据;所述数据分类模块用于将由数据采集模块输出的数据划分为图像数据和文本数据,并对分类后的数据进行过滤处理;所述分类检测模块用于对分类后的数据进行分析检测;所述检测融合模块用于根据检测需求筛选所需的图像数据和文本数据。\n[0015] 优选地,所述数据缓存服务器2包括:\n[0016] 第一通信装置,分别与所述终端设备1和所述中央处理服务器3相连接,接收来自于所述终端设备1采集到的数据,将所述采集到的数据发送给所述中央处理服务器3,以及接收来自于所述中央处理服务器3分析处理后的数据。\n[0017] 本优选实施例实现了数据通信。\n[0018] 优选地,所述中央处理服务器3还包括:\n[0019] 第二通信装置,与所述数据缓存服务器2相连接,经由所述数据缓存服务器2接收所述终端设备1采集到的数据,并将所述中央处理服务器3分析处理后的数据发送至所述数据缓存服务器2。\n[0020] 本优选实施例加快了数据处理速度。\n[0021] 优选的,所述采集需要进行检测的数据,包括:\n[0022] (1)采集一定时间段内需要进行检测的数据,按设定的过滤规则对该数据进行初步过滤处理,所述设定的过滤规则包括删除包含特殊字符、推广相关的特殊汉字和网页链接的内容的数据;\n[0023] (2)设所述一定时间段的时间范围为[TB,TE],将[TB,TE]按照时间顺序平均分为n个子时间段,对每个子时间段内的数据进行重要度评估,评估公式定义为:\n[0024]\n[0025] 上式中,Qi为第i个子时间段的重要程度,QTi为设定的第i个子时间段的重要程度值,Xi为第i个子时间段的数据的数量,X为在[TB,TE]内的数据的数量。\n[0026] (3)将各重要度按照由小到大进行排序,按照重要度的排列顺序,将数据依次发送至数据分类模块。\n[0027] 本优选实施例通过设定过滤规则,将不需要进行检测的数据进行删除,减少了检测后续处理的数据量;通过对各子时间段的数据进行重要度评估,并按照重要度的排列顺序,将数据依次发送至数据分类模块,使后续的模块能够预先处理重要程度高的数据,提高了检测的速度。\n[0028] 优选的,所述对分类后的数据进行过滤处理,包括:\n[0029] Step1:提取文本数据,对该文本数据进行聚类处理,形成多个类别的文本数据集;\n[0030] Step2:计算每个类别的文本数据集中的数据的数量,按照数量由少到大的顺序对多个文本数据集进行排序;\n[0031] Step3:删除前20%的文本数据集,将剩余的文本数据集以及图像数据发送至分类检测模块。\n[0032] 本优选实施例进一步对文本数据进行聚类处理,过滤掉数量较少的文本数据集,减少了后续检测的数据量,从而进一步提高了检测的速度。\n[0033] 优选的,所述对该文本数据进行聚类处理,包括:\n[0034] Step1:确定聚簇的个数K,包括:对该文本数据采用等距法设定k-means聚类算法的初始中心,得到聚类中心;在得到聚类中心后将相邻的聚类中心的中点作为分类的划分点,将各个对象加入到距离最近的类中,从而确定聚簇的个数K;\n[0035] Step2:将该文本数据划分为n个样本,对n个样本进行向量化,通过夹角余弦函数计算所有样本两两之间的相似度,得到相似度矩阵SIM:\n[0036] SIM=[sim(ai,aj)]n×n,i,j=1,…,n\n[0037] Step3:计算每一个样本与其它所有样本的相似度之和,求和公式为:\n[0038]\n[0039] 上式中, 为样本ai与其它所有样本的相似度之和,sim(ai,aj)表示样本ai,aj间的相似度,i,j=1,…,n;\n[0040] Step4:按降序排列 设 按从大到小排列的前4个值对应的样\n本为amax,amax-1,amax-2,amax-3,根据下列公式确定第一个初始的聚簇中心MID:\n[0041]\n[0042] 上式中,ωmax-μ表示amax-μ的重要度权值;\n[0043] Step5:对 中的最大值对应的矩阵中行向量的元素进行升序排列,假设前k-1个最小的元素为SIMpq,q=1,…,k-1,选择前k-1个最小的元素SIMpq相对应的样本作为剩余的k-1个初始的聚簇中心;\n[0044] Step6:计算剩余样本与各初始的聚簇中心之间的相似度,将剩余样本分发到相似度最高的聚簇中,形成变化后的k个聚簇;\n[0045] Step7:计算变化后的聚簇中各样本的均值,将其作为更新后的聚簇中心代替更新前的聚簇中心;\n[0046] Step8:若更新前的聚簇中心与更新后的聚簇中心相同,或者目标函数达到了最小值,停止更新,所述目标函数为:\n[0047]\n[0048] 上式中,Cl表示k个聚簇中的第l个聚簇,ax为第l个聚簇中的样本, 为第l个聚簇的中心。\n[0049] 本优选实施例有效避免单一采取随机抽样方法所带来的偶然性,解决对该文本数据进行聚类处理时在选取k值以及初始化聚类中心时所存在的问题,提高了聚类稳定性,进一步提高了对文本数据进行过滤处理的精度。\n[0050] 优选的,所述分类检测模块包括图像数据检测单元和文本数据检测单元;所述图像数据检测单元基于语义特征对图像数据进行检测,具体为:采用小波变换的方法对图像进行分割,对区域低层特征进行提取,构造特征矩阵,再应用非负矩阵分解训练算法构造语义空间,将图像投影到该空间以获取图像语义特征;所述文本数据检测单元包括文本数据建模子单元、文本数据分类子单元、检测子单元,具体为:\n[0051] (1)文本数据建模子单元,用于使用构成文档的词项来表达文档的语义,其将n篇文档t1,t2,…,tn的每篇文档表示成m维特征向量v1,v2,…,vm,构成n×m的文档-特征矩阵:\n[0052]\n[0053] 上式中,m为构成文档的词项的数量;\n[0054]\n[0055] 上式中,d(ti,vj)表示词项vj在文档ti中所占权重,f(ti,vj)表示词项vj在文档ti中出现的次数,f(vj)表示词项vj在所有文档中出现的次数总和;\n[0056] (2)文本数据分类子单元,用于对建模后的文本文档进行分类,具体包括:\n[0057] a、将文本集中的文档随机映射到一个二维平面网格空间,每个网格中只能投影一篇文档,同时,在二维平面上放置一定数量的蚂蚁;\n[0058] b、每只蚂蚁随机在二维网格空间移动,选择一个文档捡起,并携带它在二维网格空间随机移动,每移动一次,蚂蚁计算它所携带文档或者所在网格中的文档与周围环境的群体相似度,决定是否捡起或者放下该文档,将每个网格作为二维网格空间离散值,设蚂蚁所在位置为p,它所在环境的群体相似度定义为:\n[0059]\n[0060] 上式中,ti∈p(b×b)表示文档ti在位置p的边长b×b的邻域,r(ti,tj)表示两篇文档之间的文本距离,σ表示相似度因子,σ的取值范围是[1,2],\n[0061]\n[0062] 上式中,m表示文档中词项数量;\n[0063] c、捡起和放下,如果蚂蚁没有携带任何文档移动,那么它将捡起与周围环境群体相似度较低的文档;如果蚂蚁正在携带一篇文档移动,那么当蚂蚁处于空网格,并且这篇文档与周围环境的群体相似度较高时,它将放下这篇文档,捡起概率Pj(ti)和放下概率Pf(ti)定义为:\n[0064]\n[0065]\n[0066] 上式中,T1和T2为常数阈值,T1=0.14,T2=0.16;\n[0067] d、重复b和c,经过一段时间,相似性高的文档将被聚集在同一区域。\n[0068] 本优选实施例对数据进行分类检测,能够充分利用不同类型数据特点,采用对应的方法进行检测,提高了检测的针对性;对文档进行建模,将非结构化的文本数据转换成可计算的结构化数据,同时便于后续对文档进行分类;文本数据分类子单元提高了检测效率,节约了检测时间。\n[0069] 本发明与传统的大数据分析系统的数据检测情况如下表所示:\n[0070]\n 检测速度 检测准确率\n本发明 0.2s 98%\n传统的大数据分析系统 0.3s 91%\n[0071] 最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。
法律信息
- 2018-06-08
- 2018-03-30
专利申请权的转移
登记生效日: 2018.03.09
申请人由深圳万智联合科技有限公司变更为贵州国信通电子商务有限公司
地址由518000 广东省深圳市南山区粤海街道高新科技园南一道创维大厦6层601室变更为550000 贵州省贵阳市贵阳国家高新技术产业开发区长岭南路160号黎阳大厦(高科一号)C座12楼A区
- 2018-03-30
- 2017-04-19
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201611105651.2
申请日: 2016.12.05
- 2017-03-22
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2014-10-01
|
2014-06-09
| | |
2
| |
2015-03-25
|
2014-12-16
| | |
3
| |
2013-03-13
|
2012-11-30
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |