著录项信息
专利名称 | 一种基于大规模数据的贝叶斯分类算法的黑车识别方法 |
申请号 | CN201510169533.7 | 申请日期 | 2015-04-10 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2015-07-22 | 公开/公告号 | CN104794184A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0;;;G;0;6;K;9;/;6;2查看分类表>
|
申请人 | 安徽四创电子股份有限公司 | 申请人地址 | 安徽省合肥市高新区香樟大道199号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 安徽四创电子股份有限公司 | 当前权利人 | 安徽四创电子股份有限公司 |
发明人 | 王佐成;任子晖;王汉林;马韵洁;张凯;王卫;刘畅;张伟;许亚军 |
代理机构 | 合肥金安专利事务所 | 代理人 | 吴娜 |
摘要
本发明涉及一种基于大规模数据的贝叶斯分类算法的黑车识别方法,包括:从大规模过车数据平台中检索出黑车样本车辆和白车样本车辆的过车记录数据;对检索出来的过车记录数据进行数据预处理,得到过车记录数据的原始特征属性;根据过车记录数据的原始特征属性计算出车辆出行规律程度;利用过车记录数据的原始特征属性和车辆出行规律程度对贝叶斯分类模型进行训练,得到黑车识别模型;将卡口系统中未识别的过车数据输入黑车识别模型中,黑车识别模型自动识别车辆是否为黑车,并将识别结果呈现给用户。本发明模型建立过程中的所有参数都是通过自调整的方式设定的,消除了主观因素对黑车识别结果的影响,提高了数据处理的效率及结果显示的实时性。
1.一种基于大规模数据的贝叶斯分类算法的黑车识别方法,该方法包括下列顺序的步骤:
(1)从运管处获得多个非法运营车辆的车牌号信息,作为黑车样本车辆;同时获得多个私家车的车牌号信息,作为白车样本车辆,然后从大规模过车数据平台Hadoop中检索出黑车样本车辆和白车样本车辆的过车记录数据;
(2)对检索出来的过车记录数据进行数据预处理,得到过车记录数据的原始特征属性;
(3)根据过车记录数据的原始特征属性计算出车辆出行规律程度;
(4)在大规模过车数据平台Hadoop中,利用过车记录数据的原始特征属性和车辆出行规律程度对贝叶斯分类模型进行训练,得到黑车识别模型;
(5)将卡口系统中未识别的过车数据输入黑车识别模型中,黑车识别模型自动识别车辆是否为黑车,并将识别结果呈现给用户;
计算车辆出行规律程度的具体步骤如下:
(1)建立特征属性向量:将原始特征属性的过车时间、卡口编号、车型和车速组成向量,得到过车记录的特征属性向量;
(2)向量分组:将得到的特征属性向量根据样本进行分类处理,得到对应于白车和黑车的两个向量组;
(3)计算类内离散矩阵:根据公式①、公式②和公式③分别求出对应于白车和黑车的两个向量组样本的类内离散矩阵,公式如下:
Sw=S1+S2 ③
其中:xk为过车记录向量,Xi为总体数据集,mi为每组向量组的期望向量,ni为每个向量组的元素个数,S1为过车时间的方差值,S2为过车速度的方差值,T代表矩阵的转置;Sw为两向量组的方差之和,即类内离散矩阵;X为特征属性取值的排列组合;
(4)计算类间离散矩阵:根据公式④求出两个向量组样本之间的离散矩阵,公式如下:
Sb=(m1-m2)(m1-m2)T ④
其中:m1和m2分别为时间向量和速度向量的期望值,Sb为黑车和白车的类间离散矩阵,T代表矩阵的转置;
(5)计算车辆出行规律程度:根据公式⑤由类内离散矩阵和两向量组间的类间离散矩阵得到车辆出行规律程度,公式如下:
其中:m1和m2分别为时间向量和速度向量的期望值,S1为过车时间的方差值,S2为过车速度的方差值,T代表矩阵的转置。
2.根据权利要求1所述的基于大规模数据的贝叶斯分类算法的黑车识别方法,其特征在于:在进行过车数据检索时,通过大规模过车数据平台Hadoop下的MapReduce引擎获取非关系型分布式数据库HBase中存储的数据,该数据以车牌号信息为索引存储在大规模过车数据平台Hadoop上的HBase中,且以分布式文件系统为基础。
3.根据权利要求1所述的基于大规模数据的贝叶斯分类算法的黑车识别方法,其特征在于:所述数据预处理是指首先将有缺失或者错误的过车记录数据删除,然后通过相关性分析,得到车辆的过车数据中的各特征属性与黑车间的相关程度,取相关程度最大的4个特征属性作为过车记录数据的原始特征属性,即过车时间、卡口编号、车型和车速。
4.根据权利要求1所述的基于大规模数据的贝叶斯分类算法的黑车识别方法,其特征在于:所述建立基于贝叶斯分类模型的黑车识别模型的步骤为:
(1)特征属性选择:每个数据样本用一个5维特征向量表示,5维特征向量的5个特征属性包括原始特征属性和车辆出行规律程度,即过车时间、卡口编号、车型、车速和车辆出行规律程度;
(2)计算某一属性值的条件概率:所有的样本共分为黑车和白车两个类,计算5个特征属性的各取值在黑车类和白车类中的比率P(xk︱黑车)和P(xk︱白车),其中:xk是特征属性的各个不同取值,P(xk︱黑车)为某一特征属性的取值占黑车的百分比,P(xk︱白车)为某一特征属性的取值占白车的百分比;
(3)计算某一样本的条件概率:由公式⑥、公式⑦计算P(X︱白车)、及P(白车)的值,同理,计算P(X︱黑车)及P(黑车)的值,公式如下:
P(白车)=样本中白车数/样本总数 ⑥
P(X︱白车)=∏P(xk︱白车) ⑦
其中:∏代表连乘,P(黑车)和P(白车)分别为样本中黑车和白车的所占的比率;X代表5个特征属性取值的排列组合,P(X︱白车)为某车是白车的情况下各属性取值为X的概率值,P(X︱黑车)为某车是黑车的情况下各属性取值为X的概率值;
(4)求得最终结果:由公式⑧、公式⑨计算P(白车︱X)、P(黑车︱X)的值,具体公式如下:
P(白车︱X)=P(X︱白车)*P(白车)/P(X) ⑧
P(黑车︱X)=P(X︱黑车)*P(黑车)/P(X) ⑨
其中,P(白车︱X)、P(黑车︱X)分别为代表某辆车为白车、黑车的概率,P(X)为中间推导量。
5.根据权利要求1所述的基于大规模数据的贝叶斯分类算法的黑车识别方法,其特征在于:所述大规模过车数据平台Hadoop采用MapReduce引擎对获取到的过车数据进行预处理操作,并将处理后的数据传输到计算节点;计算节点接收到过车数据,执行Map算法对贝叶斯分类模型进行训练,对模型的各参数进行调整;使用训练后的模型即黑车识别模型对未标识的车辆是否为黑车进行判断,并将判定的结果传给Reduce模块,Reduce模块对结果进行排序,从而实现对黑车的识别。
6.根据权利要求4所述的基于大规模数据的贝叶斯分类算法的黑车识别方法,其特征在于:将卡口系统中未识别的过车数据代入上述公式⑧、公式⑨中,通过比较P(X︱白车)*P(白车)与P(X︱黑车)*P(黑车)的大小,得到P(白车︱X)、P(黑车︱X)的大小关系,即可得到某车属于白车或黑车的概率,概率大的即表示该辆车属于此类,从而实现对未知车辆的识别。
一种基于大规模数据的贝叶斯分类算法的黑车识别方法\n技术领域\n[0001] 本发明涉及智能交通技术领域,尤其是一种基于大规模数据的贝叶斯分类算法的黑车识别方法。\n背景技术\n[0002] 所谓黑车,是指没有在交通运输管理部门办理任何相关手续、没有领取营运牌证而以有偿服务实施非法运营的车辆。近年来,随着经济的发展,黑车的数量也在逐年上升,黑车的存在不仅严重扰乱了正常的运输市场秩序,导致严重的交通事故发生,损害旅客的合法权益,而且由于有些黑车车主的强揽旅客、敲诈勒索、谋财害命的行为,严重影响了旅客的出行安全,给社会带来了不稳定的因素。因黑车的治理具有车辆难以识别、数量庞大、调查取证困难等特点,且目前尚无一种有效的方法或系统可实现对其的自动识别,故如何正确识别黑车已成为运管处急需解决的问题。\n发明内容\n[0003] 本发明的目的在于提供一种自动对卡口系统中的过往车辆是否为黑车进行判别,维护正常的交通秩序,为运管处对黑车的监控、处罚提供依据的基于大规模数据的贝叶斯分类算法的黑车识别方法。\n[0004] 为实现上述目的,本发明采用了以下技术方案:一种基于大规模数据的贝叶斯分类算法的黑车识别方法,该方法包括下列顺序的步骤:\n[0005] (1)从运管处获得多个非法运营车辆的车牌号信息,作为黑车样本车辆;同时获得多个私家车的车牌号信息,作为白车样本车辆,然后从大规模过车数据平台Hadoop中检索出黑车样本车辆和白车样本车辆的过车记录数据;\n[0006] (2)对检索出来的过车记录数据进行数据预处理,得到过车记录数据的原始特征属性;\n[0007] (3)根据过车记录数据的原始特征属性计算出车辆出行规律程度;\n[0008] (4)在大规模过车数据平台Hadoop中,利用过车记录数据的原始特征属性和车辆出行规律程度对贝叶斯分类模型进行训练,得到黑车识别模型;\n[0009] (5)将卡口系统中未识别的过车数据输入黑车识别模型中,黑车识别模型自动识别车辆是否为黑车,并将识别结果呈现给用户。\n[0010] 在进行过车数据检索时,通过大规模过车数据平台Hadoop下的MapReduce引擎获取非关系型分布式数据库HBase中存储的数据,该数据以车牌号信息为索引存储在大规模过车数据平台Hadoop上的HBase中,且以分布式文件系统为基础。所述数据预处理是指首先将有缺失或者错误的过车记录数据删除,然后通过相关性分析,得到车辆的过车数据中的各特征属性与黑车间的相关程度,取相关程度最大的4个特征属性作为过车记录数据的原始特征属性,即过车时间、卡口编号、车型和车速。\n[0011] 计算车辆出行规律程度的具体步骤如下:\n[0012] (1)建立特征属性向量:将原始特征属性的过车时间、卡口编号、车型和车速组成向量,得到过车记录的特征属性向量;\n[0013] (2)向量分组:将得到的特征属性向量根据样本进行分类处理,得到对应于白车和黑车的两个向量组;\n[0014] (3)计算类内离散矩阵:根据公式①、公式②和公式③分别求出对应于白车和黑车的两个向量组样本的类内离散矩阵,公式如下:\n[0015]\n[0016]\n[0017] Sw=S1+S2 ③\n[0018] 其中:xk为过车记录向量,Xi为总体数据集,mi为每组向量组的期望向量,ni为每个向量组的元素个数,S1为过车时间的方差值,S2为过车速度的方差值,T代表矩阵的转置;Sw为两向量组的方差之和,即类内离散矩阵;X为特征属性取值的排列组合;\n[0019] (4)计算类间离散矩阵:根据公式④求出两个向量组样本之间的离散矩阵,公式如下:\n[0020] Sb=(m1-m2)(m1-m2)T ④\n[0021] 其中:m1和m2分别为时间向量和速度向量的期望值,Sb为黑车和白车的类间离散矩阵,T代表矩阵的转置;\n[0022] (5)计算车辆出行规律程度:根据公式⑤由类内离散矩阵和两向量组间的类间离散矩阵得到车辆出行规律程度,公式如下:\n[0023]\n[0024] 其中:m1和m2分别为时间向量和速度向量的期望值,S1为过车时间的方差值,S2为过车速度的方差值,T代表矩阵的转置。\n[0025] 所述建立基于贝叶斯分类模型的黑车识别模型的步骤为:\n[0026] (1)特征属性选择:每个数据样本用一个5维特征向量表示,5维特征向量的5个特征属性包括原始特征属性和车辆出行规律程度,即过车时间、卡口编号、车型、车速和车辆出行规律程度;\n[0027] (2)计算某一属性值的条件概率:所有的样本共分为黑车和白车两个类,计算5个特征属性的各取值在黑车类和白车类中的比率P(xk︱黑车)和P(xk︱白车),其中:xk是特征属性的各个不同取值;P(xk︱黑车)为某一特征属性的取值占黑车的百分比,P(xk︱白车)为某一特征属性的取值占白车的百分比;\n[0028] (3)计算某一样本的条件概率:由公式⑥、公式⑦计算P(X︱白车)、及P(白车)的值,同理,计算P(X︱黑车)及P(黑车)的值,公式如下:\n[0029] P(白车)=样本中白车数/样本总数 ⑥\n[0030] P(X︱白车)=∏P(xk︱白车) ⑦\n[0031] 其中:∏代表连乘,P(黑车)和P(白车)分别为样本中黑车和白车的所占的比率;X代表5个特征属性取值的排列组合,P(X︱白车)为某车是白车的情况下各属性取值为X的概率值,P(X︱黑车)为某车是黑车的情况下各属性取值为X的概率值;\n[0032] (4)求得最终结果:由公式⑧、公式⑨计算P(白车︱X)、P(黑车︱X)的值,具体公式如下:\n[0033] P(白车︱X)=P(X︱白车)*P(白车)/P(X) ⑧\n[0034] P(黑车︱X)=P(X︱黑车)*P(黑车)/P(X) ⑨\n[0035] 其中,P(白车︱X)、P(黑车︱X)分别为代表某辆车为白车、黑车的概率,P(X)为中间推导量。\n[0036] 所述大规模过车数据平台Hadoop采用MapReduce引擎对获取到的过车数据进行预处理操作,并将处理后的数据传输到计算节点;计算节点接收到过车数据,执行Map算法对贝叶斯分类模型进行训练,对模型的各参数进行调整;使用训练后的模型即黑车识别模型对未标识的车辆是否为黑车进行判断,并将判定的结果传给Reduce模块,Reduce模块对结果进行排序,从而实现对黑车的识别。\n[0037] 将卡口系统中未识别的过车数据代入上述公式⑧、公式⑨中,通过比较P(X︱白车)*P(白车)与P(X︱黑车)*P(黑车)的大小,得到P(白车︱X)、P(黑车︱X)的大小关系,即可得到某车属于白车或黑车的概率,概率大的即表示该辆车属于此类,从而实现对未知车辆的识别。\n[0038] 由上述技术方案可知,本发明的优点如下:第一,本发明利用现有的卡口数据即大量的过车记录数据,得到黑车和白车的样本,在样本的基础上建立黑车识别模型,样本数据真实性高,识别的准确度高,由于无需投入更多的成本去获得数据,成本较低;第二,本发明模型建立过程中的所有参数都是通过自调整的方式设定的,最大限度的消除了主观因素对最终黑车识别结果的影响,极大地提高了数据处理的效率及结果显示的实时性;第三,通过本发明,能够自动对卡口系统中的过往车辆是否为黑车进行判别,维护正常的交通秩序,为运管处对黑车的监控、处罚提供依据。\n附图说明\n[0039] 图1为本发明的方法流程图;\n[0040] 图2为本发明的计算车辆出行规律程度的方法流程图;\n[0041] 图3为本发明的建立黑车识别模型的方法流程图。\n具体实施方式\n[0042] 如图1所示,一种基于大规模数据的贝叶斯分类算法的黑车识别方法,包括:(1)从运管处获得多个非法运营车辆的车牌号信息,作为黑车样本车辆;同时获得多个私家车的车牌号信息,作为白车样本车辆,然后从大规模过车数据平台Hadoop中检索出黑车样本车辆和白车样本车辆的过车记录数据;(2)对检索出来的过车记录数据进行数据预处理,得到过车记录数据的原始特征属性;(3)根据过车记录数据的原始特征属性计算出车辆出行规律程度;(4)在大规模过车数据平台Hadoop中,利用过车记录数据的原始特征属性和车辆出行规律程度对贝叶斯分类模型进行训练,得到黑车识别模型;(5)将卡口系统中未识别的过车数据输入黑车识别模型中,黑车识别模型自动识别车辆是否为黑车,并将识别结果呈现给用户。\n[0043] 如图1所示,在进行过车数据检索时,通过大规模过车数据平台Hadoop下的MapReduce引擎获取非关系型分布式数据库HBase中存储的数据,该数据以车牌号信息为索引存储在大规模过车数据平台Hadoop上的HBase中,且以分布式文件系统为基础。所述数据预处理是指首先将有缺失或者错误的过车记录数据删除,然后通过相关性分析,得到车辆的过车数据中的各特征属性与黑车间的相关程度,取相关程度最大的4个特征属性作为过车记录数据的原始特征属性,即过车时间、卡口编号、车型和车速。对过车数据的存储与计算采用分布式数据计算技术,研究Hadoop分布式存储机制、并行计算等技术,设计了一个分布式计算、统一存储、统一访问、动态扩容的基础环境解决方案,为“黑车”识别提供技术支撑。\n[0044] 如图2所示,计算车辆出行规律程度的具体步骤如下:\n[0045] (1)建立特征属性向量:将原始特征属性的过车时间、卡口编号、车型和车速组成向量,得到过车记录的特征属性向量;\n[0046] (2)向量分组:将得到的特征属性向量根据样本进行分类处理,得到对应于白车和黑车的两个向量组;\n[0047] (3)计算类内离散矩阵:根据公式①、公式②和公式③分别求出对应于白车和黑车的两个向量组样本的类内离散矩阵,公式如下:\n[0048]\n[0049]\n[0050] Sw=S1+S2 ③\n[0051] 其中:xk为过车记录向量,Xi为总体数据集,mi为每组向量组的期望向量,ni为每个向量组的元素个数,S1为过车时间的方差值,S2为过车速度的方差值,T代表矩阵的转置;Sw为两向量组的方差之和,即类内离散矩阵;X为特征属性取值的排列组合;\n[0052] (4)计算类间离散矩阵:根据公式④求出两个向量组样本之间的离散矩阵,公式如下:\n[0053] Sb=(m1-m2)(m1-m2)T ④\n[0054] 其中:m1和m2分别为时间向量和速度向量的期望值,Sb为黑车和白车的类间离散矩阵,T代表矩阵的转置;\n[0055] (5)计算车辆出行规律程度:根据公式⑤由类内离散矩阵和两向量组间的类间离散矩阵得到车辆出行规律程度,公式如下:\n[0056]\n[0057] 其中:m1和m2分别为时间向量和速度向量的期望值,S1为过车时间的方差值,S2为过车速度的方差值,T代表矩阵的转置。\n[0058] 如图3所示,所述建立基于贝叶斯分类模型的黑车识别模型的步骤为:\n[0059] (1)特征属性选择:每个数据样本用一个5维特征向量表示,5维特征向量的5个特征属性包括原始特征属性和车辆出行规律程度,即过车时间、卡口编号、车型、车速和车辆出行规律程度;\n[0060] (2)计算某一属性值的条件概率:所有的样本共分为黑车和白车两个类,计算5个特征属性的各取值在黑车类和白车类中的比率P(xk︱黑车)和P(xk︱白车),其中:xk是特征属性的各个不同取值;P(xk︱黑车)为某一特征属性的取值占黑车的百分比,P(xk︱白车)为某一特征属性的取值占白车的百分比;例如:当x代表速度时,x1代表速度大于80Km/h,则P(x1︱黑车)代表黑车中速度大于80Km/h的车辆占总黑车数的比例。\n[0061] (3)计算某一样本的条件概率:由公式⑥、公式⑦计算P(X︱白车)、及P(白车)的值,同理,计算P(X︱黑车)及P(黑车)的值,公式如下:\n[0062] P(白车)=样本中白车数/样本总数 ⑥\n[0063] P(X︱白车)=∏P(xk︱白车) ⑦\n[0064] 其中:∏代表连乘,P(黑车)和P(白车)分别为样本中黑车和白车的所占的比率;X代表5个特征属性取值的排列组合,如:车速为高,车型为大型,卡口编号为一类,过车时间为上午,车辆出行规律程度为不规律就是X的一个向量值;P(X︱白车)为某车是白车的情况下各属性取值为X的概率值,P(X︱黑车)为某车是黑车的情况下各属性取值为X的概率值;\n[0065] (4)求得最终结果:由公式⑧、公式⑨计算P(白车︱X)、P(黑车︱X)的值,具体公式如下:\n[0066] P(白车︱X)=P(X︱白车)*P(白车)/P(X) ⑧\n[0067] P(黑车︱X)=P(X︱黑车)*P(黑车)/P(X) ⑨\n[0068] 其中,P(白车︱X)、P(黑车︱X)分别为代表某辆车为白车、黑车的概率,P(X)为中间推导量,没有具体意义。\n[0069] 所述大规模过车数据平台Hadoop采用MapReduce引擎对获取到的过车数据进行预处理操作,并将处理后的数据传输到计算节点;计算节点接收到过车数据,执行Map算法对贝叶斯分类模型进行训练,对模型的各参数进行调整;使用训练后的模型即黑车识别模型对未标识的车辆是否为黑车进行判断,并将判定的结果传给Reduce模块,Reduce模块对结果进行排序,从而实现对黑车的识别。\n[0070] 将卡口系统中未识别的过车数据代入上述公式⑧、公式⑨中,通过比较P(X︱白车)*P(白车)与P(X︱黑车)*P(黑车)的大小,得到P(白车︱X)、P(黑车︱X)的大小关系,即可得到某车属于白车或黑车的概率,概率大的即表示该辆车属于此类,从而实现对未知车辆的识别。本发明将分析后的车辆是否为“黑车”、属于“黑车”的程度等信息以列表的形式展示给用户,用户可对感兴趣车辆的行车轨迹等具体情况进行查询。例如:X=(a1,a2,a3,a4,a5),其中,a1代表过车时间为上午,a2代表卡口编号为一类、a3代表车型为大型,a4代表车速为高,a5代表出行不规律,则P(X︱白车)=∏P(xk︱白车)=P(a1︱白车)*P(a2︱白车)*P(a3︱白车)*P(a4︱白车)*P(a5︱白车)=0.7144*0.6458*0.37*0.8623*0.8676;P(白车)=\n0.9762,则P(X︱白车)*P(白车)=0.9543;同理,可求得P(X︱黑车)*P(黑车)=0.0457,由于P(X︱白车)*P(白车)>P(X︱黑车)*P(黑车),故该车为白车。\n[0071] 综上所述,本发明模型建立过程中的所有参数都是通过自调整的方式设定的,最大限度的消除了主观因素对黑车识别结果的影响,极大地提高了数据处理的效率及结果显示的实时性。
法律信息
- 2018-01-19
- 2015-08-19
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201510169533.7
申请日: 2015.04.10
- 2015-07-22
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2012-10-10
|
2012-05-31
| | |
2
| |
2013-10-23
|
2013-06-25
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |