著录项信息
专利名称 | 基于非均匀量化颜色特征矢量的敏感图像过滤方法 |
申请号 | CN200510028206.6 | 申请日期 | 2005-07-28 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2006-02-01 | 公开/公告号 | CN1728161 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06K9/46 | IPC分类号 | G;0;6;K;9;/;4;6查看分类表>
|
申请人 | 上海交通大学 | 申请人地址 | 上海市闵行区东川路800号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 上海交通大学 | 当前权利人 | 上海交通大学 |
发明人 | 王士林;李生红;李翔;李建华;周黎 |
代理机构 | 上海交达专利事务所 | 代理人 | 王锡麟;王桂忠 |
摘要
一种模式识别领域的基于非均匀量化颜色特征矢量的敏感图像过滤方法,首先进行多种图像特征的提取,包括图像基本特征的提取和图像内容特征的提取,图像基本特征是针对敏感图像特点的非均匀量化颜色直方图特征;图像内容特征是基于纹理检测的皮肤区域分布特征;然后采用自适应提升算法,综合分析所提取的特征组合,根据其与图像样本库内敏感图像和正常图像的匹配程度,判别该图像是否为敏感图像。本发明提出了一种新型图像基本颜色特征的表达方式,能够使用尽可能低维的特征向量来描述敏感图像的颜色分布特点。因此,本发明在获得高识别率的同时,保证了较高的处理速度,具有广阔的应用前景。
技术领域\n本发明涉及的是一种图像处理技术领域的方法,特别是一种基于非均匀量 化颜色特征矢量的敏感图像过滤方法。\n背景技术\n在互联网给人民生活带来极大便利的同时,其负面效应也日益凸显出来, 各种不良信息能够在互联网中快捷地传播,其中,敏感图象在互联网中的泛滥 则是一个重要的方面,相对于其他一些不良信息,敏感图像所带来的危害更大, 更加直接,尤其对未成年少年的危害,更加不容忽视。在这种情况下,如何净 化网络空间,限制敏感图像在网络中的传播已经受到人们的普遍关注。因此, 有必要对网络中的信息进行监控,以发现并过滤隐藏其中的敏感图像。图像不 同于一般的信息,需要在理解其中的语义的基础上才能判断是否包含敏感内容, 而对于高级语义的理解则需要通过提取图像的低级特征,如颜色、纹理、形状 等信息,并对这些低级特征的分析来完成,进而完成图像内容的识别和判断。 对于敏感图像的语义描述以及在这个基础之上的图像内容的识别,有人提出自 动识别裸体人物图片的系统。该识别方法结合了肤色和纹理特征来标记皮肤区 域,然后让这些标记后的皮肤区域通过一个专门的分类器,利用人体结构的几 何特征来分类出人的轮廓。带有十分大量的可能肢体区域的图片即可被认为是 包含裸体人物的敏感图片。但该方法过于依赖非几何的因素(比如肤色)和部 位之间的关系。还有人提出多层次特定类型图像过滤方法,是一种基于计算机 视觉和模式识别的敏感图像过滤方法。通过研究人类视觉对图像的分析机理, 提出综合肤色模型检验、支持向量机分类和最近邻方法校验的多层次图像处理 框架。该方法通过综合多种方法的过滤结果以提高过滤的准确性。\n经过对现有技术文献的检索发现,中国专利申请号为:02157115.5,名称 为“基于人体局部和形体信息的敏感图像识别方法”该专利自述为:一种基于 人体局部和形体信息的敏感图像识别方法,包括步骤:对静态敏感图像进行划 分;确定区域几何点;采用生长点的自主抖动确定生长点所属区域的图像局部 特征;进行图像性质判断。该方法主要通过将图像划分成若干个不同的区域, 综合每个区域中所提取的图像局部特征和人体形体特征来进行判断。故而这种 方法处理时间短,对于背景清晰或形体轮廓清晰的图像具有较好的效果。然而, 实际生活中的图像往往具有复杂的背景,人体与背景之间的颜色对比度也不太 明显。在这种情况下,该方法很难准确地获得人体的轮廓信息。另外,仅仅通 过颜色信息来判断皮肤区域也存在较大的误差。\n发明内容\n本发明的目的在于克服现有技术中的不足,提出一种基于非均匀量化颜色 特征矢量的敏感图像过滤方法,使其实现对于图像内容的识别,判断图像是否 包含敏感内容,在获得高识别率的同时,保证了较高的处理速度。\n本发明是通过以下技术方案实现的,首先进行多种图像特征的提取,主要 包括:1)图像基本特征,即针对敏感图像特点的非均匀量化颜色直方图特征; 2)图像内容特征,即基于纹理检测的皮肤区域分布特征。然后采用自适应提升 (ADABOOST)算法,综合分析所提取的特征组合,根据其与图像样本库内敏感 图像和正常图像的匹配程度,判别该图像是否为敏感图像。本发明还采用平衡 因子来调节识别率和错误率的平衡,可以针对不同的情况采取不同的判别方法。\n本发明采用针对敏感图像的非均匀量化颜色直方图特征,该特征在性能上 优于传统的均匀量化颜色直方图,其原因在于,一方面,传统的均匀量化颜色 直方图一般来说是高维的,其中包含很多与图像敏感与否无关的冗余信息;另 一方面,图像性质的信息往往包含在多个邻近的直方图元素的相互关系而非任 何一个单个元素中,综合多个邻近的直方图元素往往比单个元素能够提供更高 的判别力。2)采取一种能够根据上述特征进行判别图像内容的方法,并可以自 主调节识别率和错误率的平衡,以满足各种不同的应用需求。\n本发明是一种新的敏感图像描述和识别方法,针对敏感图像的具体特点, 提出了新的适合该类图像的特征描述方法,并实现了敏感图像的识别。本发明 经过了性能测试,测试结果表明了本发明对于图像内容的识别有着较高正确率, 即正确判断一幅是敏感图像,识别率高于88%;同时有着较低的错误率,即将一 幅正常图像判断为敏感图像,错误率小于10%。因此,本发明在获得高识别率的 同时,保证了较高的处理速度,具有广阔的应用前景。\n附图说明\n图1本发明方法流程图\n图2本发明非均匀量化颜色直方图特征的提取流程图\n图3本发明皮肤区域分布特征的提取流程图\n具体实施方式\n结合附图以及本发明的内容,对本发明作进一步详细说明:\n如图1所示,本发明首先进行多种图像特征的提取,主要包括:1)图像基 本特征,即针对敏感图像特点的非均匀量化颜色直方图特征;2)图像内容特征, 即基于纹理检测的皮肤区域分布特征。然后采用自适应提升(ADABOOST)算法, 综合分析所提取的特征组合,根据其与图像样本库内敏感图像和正常图像的匹 配程度,判别该图像是否为敏感图像。\n如图2所示,非均匀量化颜色直方图特征的提取流程,首先建立一个包含 敏感图像和非敏感图像的训练集,从中获得能够区分敏感和非敏感图像的特征 描述方法。提取步骤如下:\n1)从24位RGB格式的图像中,将每个颜色成分均匀的分成10份,统计每 个颜色单元中包含的像素点个数记为ni,j,k,则均匀量化的直方图矢量为 ci,j,k=ni,j,k/N(i,j,k∈{0,1,2,...,9}),其中N为图像中包含的像素点总数。初始化 特征组gi*100+j*10+k=ci,j,k(i,j,k∈{0,1,2,...,9})。\n2)对于未标记的每个特征(组),计算依据该特征(组)作判别的误差。从 中选取误差最小(记为e1)的特征(组)g1。\n3)在特征(组)g1的颜色空间邻域范围内寻找满足以下要求,误差最小的 特征(组)g2:\ni)将特征(组)g1和g2合并后的判别误差e2<e1。\nii)g1和g2中包含的元素在三个颜色成分的最大差别小于给定阈值τ。\n4)如果找不到这样的特征(组)g2,则标记特征(组)g1,否则将特征(组) g2并入g1同时删除组g2。如果存在未被标记的组则转到第2步,否则退出循环。\n值得注意的是:第一,上述步骤中均采用线性判别式分析(LDA)作为判别算 法,在终止循环之前记录所有的分组情况及其相应的LDA权重;第二,这样的 训练过程只需预先进行一次,之后便可以通过所得到的分组和LDA权重来计算 任何图像的非均匀量化颜色直方图特征。\n如图3所示,皮肤区域分布特征的提取,通过颜色门限、纹理检验方法, 从图像中提取皮肤区域,并生成描述皮肤区域分布情况的特征矢量。具体如下:\n1.色彩门限法\n首先将图像转化到HIS颜色空间,选取满足以下条件的像素点为可能的皮 肤点:H∈[0,1.6]∪[5.6,2π],I>100,0.1<S<0.88且R>240。\n2.纹理检验\n通过Gabor特征来描述皮肤区域的纹理特征,从可能的皮肤点中过滤掉与 皮肤纹理模型不符的像素点。\n3.皮肤区域的描述\n从得到的皮肤区域中,提取以下特征:\ni)p1=皮肤点的总数/图像中包含的总像素点\nii)p2=最大连接皮肤块中包含的像素点总数/图像中包含的总像素点\niii)p3=最大连接皮肤块中包含的像素点总数/最小外包矩形面积\n采用自适应提升算法,综合分析所提取的特征组合,根据其与图像样本库 内敏感图像和正常图像的匹配程度,判别该图像是否为敏感图像,具体如下:\n记训练集中包含的非敏感图像特征集为{x1 +,x2 +,…,xp +},敏感图像特 征集为{xi -,x2 -,…,xn -},其中xi +和xi -为包含所有图像特征(基本特征和内 容特征)的矢量。预设平衡因子c(0<c<1),整个判别方法如下:\n1)初始化样本权重 \n2)针对每个图像特征,根据样本权重训练一个相应的基本分类器hj,其产 生的误差为\n3)选取误差最小的图像特征,记其误差为et,并计算\n4)更新权重\n\n其中,Zt +和Zt -是归一化因子。\n5)t=t+1,如果t大于给定的阈值T,则退出循环,否则转到步骤2)。\n6)最终的判别方法为\n其中平衡因子c用来调节识别率和错误率的平衡,可以针对不同的情况采 取不同的判别方法(如对于比较可靠的图像信息来源,可以适当提高因子c来 降低错误率,反之亦然)。\n为了实施本发明的具体方法,设计并实现了基于图像内容识别的互联网上 敏感图像过滤系统。通过10,000多幅互联网上随机获取图像的性能测试(包 含3,000幅敏感图像),本系统对于图像内容的识别有着较高正确率,即正确 判断一幅是敏感图像,识别率高于88%;同时有着较低的错误率,即将一幅正常 图像判断为敏感图像,错误率小于10%。
法律信息
- 2014-09-17
未缴年费专利权终止
IPC(主分类): G06K 9/46
专利号: ZL 200510028206.6
申请日: 2005.07.28
授权公告日: 2008.02.20
- 2008-02-20
- 2006-03-29
- 2006-02-01
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2003-05-21
|
2002-10-31
| | |
2
| |
2001-05-30
|
2000-11-20
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |