著录项信息
专利名称 | 基于局部样条嵌入的正交半监督子空间图像分类方法 |
申请号 | CN201010220132.7 | 申请日期 | 2010-07-06 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2010-12-15 | 公开/公告号 | CN101916376A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06K9/62 | IPC分类号 | G;0;6;K;9;/;6;2查看分类表>
|
申请人 | 浙江大学 | 申请人地址 | 浙江省杭州市西湖区浙大路38号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 浙江大学 | 当前权利人 | 浙江大学 |
发明人 | 邵建;张寅;朱科 |
代理机构 | 杭州求是专利事务所有限公司 | 代理人 | 张法高 |
摘要
本发明公开了一种基于局部样条嵌入的正交半监督子空间图像分类方法。包括如下步骤:1)对图像数据集选取n个样本作为训练集,包括有标注数据和未标注数据,其余作为测试集;2)利用有标注数据构造类间散度矩阵和类内散度矩阵;3)利用整体训练数据特征空间分布,通过局部样条嵌入方式构造拉普拉斯矩阵;4)根据局部样条嵌入正交半监督子空间模型,寻找投影矩阵对原始高维特征向量进行降维;5)采用支持向量机对降维后训练样本建立分类器;6)利用投影矩阵对测试集进行降维,再通过分类器对降维后的测试集进行分类。本发明充分利用了图像样本标注和特征空间分布等信息,能挖掘图像数据之间潜在语义关联,对图像语义进行了较好的分析与表达。
1.一种基于局部样条嵌入的正交半监督子空间图像分类方法,其特点在于包括如下步骤:
1)对每个图像数据集选取n个样本数据作为训练集,训练集包括有标注信息的训练样本和未标注信息的训练样本,其余作为测试集;
2)利用有标注信息的训练样本构造类间散度矩阵和类内散度矩阵;
3)利用有标注信息的训练样本和未标注信息的训练样本的特征空间分布,通过局部样条嵌入方式构造拉普拉斯矩阵;
4)根据类间散度矩阵和类内散度矩阵以及拉普拉斯矩阵构成局部样条嵌入正交半监督子空间模型,通过寻找投影矩阵来对原始高维特征向量训练样本进行降维,得到低维特征向量训练样本;
5)采用支持向量机对降维后的低维特征向量训练样本集合建立分类器模型;
6)对于测试数据集,由训练集合计算得到的投影矩阵进行投影后,再通过分类器模型进行分类;
所述的利用有标注信息的训练样本构造类间散度矩阵和类内散度矩阵步骤为:给定属于c类的n个样本所组成的训练集合X={x1,..,xl,xl+1,...,xn},其中 i=
1,...n,前l个样本 具有类别标注信息 剩余n-l个样本 没有
被标注,利用包含标注信息训练样本 构造类间散度矩阵 和
类内散度矩阵 其中,lk表示属于第k类的训练样本个
数, 表示第k类中第i个样本, 为 均值, 表示第k类中样本均
值;
所述的利用有标注信息的训练样本和未标注信息的训练样本的特征空间分布,通过局部样条嵌入方式构造拉普拉斯矩阵步骤为:
1)假定给定样本 的k近邻数据的局部低维嵌入坐标和全局低维嵌入坐标为和 1≤i≤n,1≤j≤k,对于m维中的每一分量,分别构造一个样条函
数g(t),使得fj=g(tj);对如下函数: 进行最小化,得到
样条函数g,其中λ>0是一个正则化参数, 是样条函数g在d维空间里的罚函数,当时,上式 存在唯一解,其中l=
(d+s-1)!/(d!(s-1)!), 构成了一个阶数不小于s的多项式空间,2s>d,T
φj(t)是一个格林函数, 和β=[β1,β2,...,βl] 是系数向量;
2)通过解下面的线性方程组获得系数向量η和β:
T
其中f=[f1,...,fk], K是一个k×k的对称矩阵,Kij=
T
φ(||ti-tj||),P是一个l×k的矩阵,Pij=pi(tj),得到τ(g)=fBf
3)对于m维中的每一分量,τ(g)由全局坐标f来表达,将m维中值τ(g)累加起来,对于第i个样本xi,得到目标值为:
其中
将所有n个训练数据的目标值加起来,得到总体的目标值:
T
令L′=SBS,这样就得到了基于局部样条嵌入的拉普拉斯矩阵L′;
所述的根据类间散度矩阵和类内散度矩阵以及拉普拉斯矩阵构成局部样条嵌入正交半监督子空间模型,通过寻找投影矩阵来对原始高维特征向量训练样本进行降维,得到低维特征向量训练样本步骤为:
1)通过学习得到正交投影矩阵 m<d,能保证训练样本在经过a降维后类间离散度尽量大和类内离散度尽量小,同时使得原始空间中相邻样本在投影后低维子空间中仍然相邻,即求解以下最优化问题:
T
s.t.aa=I
这样,可通过求解矩阵的广义特征根得到优化的投影矩阵a;
2)由投影矩阵a实现对原始高维特征向量的维度降低,从而获得图像数据的低维表达T
X′=aX;
所述的采用支持向量机对降维后的低维特征向量训练样本集合建立分类器模型步骤为:分类器模型的输入是经过正交投影矩阵a降维得到的低维特征向量 以及相应的类别标识yi∈{+1,-1},输出是分类器模型的张量超平面参数 和 通过求解最优化问题 得到 和b,其中c是常量,ξ是松弛
因子。
2.根据权利要求1所述的一种基于局部样条嵌入的正交半监督子空间图像分类方法,其特征在于所述的对于测试数据集,由训练集合计算得到的投影矩阵进行投影后,再通过分类器模型进行分类步骤为:训练样本集合外的测试样本数据 由正交投影矩阵a映射为低维子空间中的 然后通过分类器模型进行类别检测,即计算yt=T
sign(w×Xt′)+b,来得到测试数据的类别标识yt∈{+1,-1}。
基于局部样条嵌入的正交半监督子空间图像分类方法\n技术领域\n[0001] 本发明涉及一种基于局部样条嵌入的正交半监督子空间图像分类方法。该方法对图像数据进行特征提取表示为特征向量,并寻找有效的降维方法将其投影到低维语义空间,从而通过训练分类器模型实现对图像数据的分类。\n背景技术\n[0002] 随着数字照相机普及和互联网发展,图像数据采集、存储和访问数量呈爆炸式增长,如何对规模日益庞大的图像数据进行高效管理变得日益重要。为了对图像进行更好管理,一个有效手段便是对图像数据分门别类地进行管理。因此,对图像数据进行分类已成为近年来热点研究问题。\n[0003] 在图像分类的研究中,所面临的最大挑战是语义鸿沟,即图像底层特征无法充分反映其高层语义。鉴于以数据驱动为中心的机器学习和统计分析等理论所取得进展,为了克服语义鸿沟,一个有效手段是在提取图像底层特征基础上,应用机器学习理论,训练得到图像语义的抽象表达,然后基于该表达,再对图像进行聚类与分类。在这个过程中,有监督学习分类算法被大量使用。虽然有监督算法可有效提高图像表达准确性,但是现有监督算法仍然存在局限性,尤其是获得精确标注信息需要耗费大量时间。随着图像数据数量快速增长,无标注数据获取更加便利,使得仅能单纯处理标注数据的监督学习算法局限性更为明显。考虑到带有标注信息的数据较难获得,而未标注数据则相对容易获得,半监督算法逐渐吸引了越来越多研究者注意。\n发明内容\n[0004] 本发明的目的是克服现有技术的不足,提供一种基于局部样条嵌入的正交半监督子空间图像分类方法。\n[0005] 基于局部样条嵌入的正交半监督子空间图像分类方法包括如下步骤:\n[0006] 1)对每个图像数据集选取n个样本数据作为训练集,训练集包括有标注信息的训练样本和未标注信息的训练样本,其余作为测试集;\n[0007] 2)利用有标注信息的训练样本构造类间散度矩阵和类内散度矩阵;\n[0008] 3)利用有标注信息的训练样本和未标注信息的训练样本的特征空间分布,通过局部样条嵌入方式构造拉普拉斯矩阵;\n[0009] 4)根据类间散度矩阵和类内散度矩阵以及拉普拉斯矩阵构成局部样条嵌入正交半监督子空间模型,通过寻找转换矩阵来对原始高维特征向量训练样本进行降维,得到低维特征向量训练样本;\n[0010] 5)采用支持向量机对降维后的低维特征向量训练样本集合建立分类器模型;\n[0011] 6)对于测试数据集,由训练集合计算得到的投影矩阵进行投影后,再通过分类器模型进行分类。\n[0012] 所述的利用有标注信息的训练样本构造类间散度矩阵和类内散度矩阵步骤为:给定属于c类的n个样本所组成的训练集合X={x1,..,xl,xl+1,...,xn},其中 i=\n1,...,n,前l个样本 具有类别标注信息 剩余n-l个样本 没有\n被标注,利用包含标注信息训练样本 构造类间散度矩阵\n和类内散度矩阵 其中,lk表示属于第k类的训练样本\n个数, 表示第k类中第i个样本, 为 均值, 表示第k类中样\n本均值。\n[0013] 所述的利用有标注信息的训练样本和未标注信息的训练样本的特征空间分布,通过局部样条嵌入方式构造拉普拉斯矩阵步骤为:\n[0014] 1)假定给定样本 的k近邻数据的局部低维嵌入坐标和全局低维嵌入坐标为 和 1≤i≤n,1≤j≤k,对于m维中的每一分量,分别构造一个样条函数g(t),使得fj=g(tj);对如下函数: 进行最小化,得到\n样条函数g,其中λ>0是一个正则化参数, 是样条函数g在d维空间里的罚函数,当时,上式存在唯一解,其中l=(d+s-1)!/(d!(s-1)!),\n构成了一个阶数不小于s的多项式空间,2s>d,φj(t)是一个格林函数,T\n和β=[β1,β2,...,βl] 是系数向量;\n[0015] 2)通过解下面的线性方程组获得系数向量η和β:\n[0016] \nT\n[0017] 其中f=[f1,...,fk], K是一个k×k的对称矩阵,Kij\n=φ(‖ti-tj‖),P是一个l×k的矩阵,Pij=pi(tj),得到τ(g)=fTBf[0018] 3)对于m维中的每一分量,τ(g)由全局坐标f来表达,将m维中值τ(g)累加起来,对于第i个样本xi,得到目标值为:\n[0019] \n[0020] 其中\n[0021] 将所有n个训练数据的目标值加起来,得到总体的目标值:\n[0022] \n[0023] 令L′=SBST,这样就得到了基于局部样条嵌入的拉普拉斯矩阵L′。\n[0024] 所述的根据类间散度矩阵和类内散度矩阵以及拉普拉斯矩阵构成局部样条嵌入正交半监督子空间模型,通过寻找转换矩阵来对原始高维特征向量训练样本进行降维,得到低维特征向量训练样本步骤为:\n[0025] 1)通过学习得到正交投影矩阵 m<d,能保证训练样本在经过a降维后类间离散度尽量大和类内离散度尽量小,同时使得原始空间中相邻样本在投影后低维子空间中仍然相邻,即求解以下最优化问题:\n[0026] \n[0027] s.t.aTa=I\n[0028] 这样,可通过求解矩阵的广义特征根得到优化的投影矩阵a;\n[0029] 2)由投影矩阵a实现对原始高维特征向量的维度降低,从而获得图像数据的低维表达X′=aTX。\n[0030] 所述的采用支持向量机对降维后的低维特征向量训练样本集合建立分类器模型步骤为:分类器模型的输入是经过正交投影矩阵a降维得到的低维特征向量 以及相应的类别标识yi∈{+1,-1},输出是分类器模型的张量超平面参数 和通过求解最优化问题 得到 和b,其中c是常量,ξ是\n松弛因子。\n[0031] 所述的对于测试数据集,由训练集合计算得到的投影矩阵进行投影后,再通过分类器模型进行分类步骤为:训练样本集合外的测试样本数据 由正交投影矩阵a映射为低维子空间中的 然后通过分类器模型进行类别检测,即计算来得到测试数据的类别标识yt∈{+1,-1}。\n[0032] 本发明有效利用了有标注训练样本和未标注训练样本,通过局部样条回归将局部低维嵌入坐标映射成全局低维嵌入坐标,保持了图像数据集合的流形空间本征结构。有效地解决了高维度带来的困难,通过对降维后的数据采用支持向量机来训练分类器模型并对测试数据分类,取得了比传统的分类方法更准确的分类结果。\n附图说明\n[0033] 图1是基于局部样条嵌入的正交半监督子空间图像分类方法流程图;\n[0034] 图2是举例本发明的5幅图像分类结果。\n具体实施方式\n[0035] 基于局部样条嵌入的正交半监督子空间图像分类方法包括如下步骤:\n[0036] 1)对每个图像数据集选取n个样本数据作为训练集,训练集包括有标注信息的训练样本和未标注信息的训练样本,其余作为测试集;\n[0037] 2)利用有标注信息的训练样本构造类间散度矩阵和类内散度矩阵;\n[0038] 3)利用有标注信息的训练样本和未标注信息的训练样本的特征空间分布,通过局部样条嵌入方式构造拉普拉斯矩阵;\n[0039] 4)根据类间散度矩阵和类内散度矩阵以及拉普拉斯矩阵构成局部样条嵌入正交半监督子空间模型,通过寻找转换矩阵来对原始高维特征向量训练样本进行降维,得到低维特征向量训练样本;\n[0040] 5)采用支持向量机对降维后的低维特征向量训练样本集合建立分类器模型;\n[0041] 6)对于测试数据集,由训练集合计算得到的投影矩阵进行投影后,再通过分类器模型进行分类。\n[0042] 所述的利用有标注信息的训练样本构造类间散度矩阵和类内散度矩阵步骤为:给定属于c类的n个样本所组成的训练集合X={x1,..,xl,xl+1,...,xn},其中 i=\n1,...,n,前l个样本 具有类别标注信息 剩余n-l个样本 没有\n被标注,利用包含标注信息训练样本 构造类间散度矩阵\n和类内散度矩阵 其中,lk表示属于第k类的训练样本\n个数, 表示第k类中第i个样本, 为 均值, 表示第k类中样\n本均值。\n[0043] 所述的利用有标注信息的训练样本和未标注信息的训练样本的特征空间分布,通过局部样条嵌入方式构造拉普拉斯矩阵步骤为:\n[0044] 1)假定给定样本 的k近邻数据的局部低维嵌入坐标和全局低维嵌入坐标为 和 1≤i≤n,1≤j≤k,对于m维中的每一分量,分别构造一个样条函数g(t),使得fj=g(tj);对如下函数: 进行最小化,得到\n样条函数g,其中λ>0是一个正则化参数, 是样条函数g在d维空间里的罚函数,当时,上式存在唯一解,其中l=(d+s-1)!/(d!(s-1)!),\n构成了一个阶数不小于s的多项式空间,2s>d,φj(t)是一个格林函数,T\n和β=[β1,β2,...,βl] 是系数向量;\n[0045] 2)通过解下面的线性方程组获得系数向量η和β:\n[0046] \n[0047] 其中f=[f1,...,fk]T, K是一个k×k的对称矩阵,Kij\nT\n=φ(‖ti-tj‖),P是一个l×k的矩阵,Pij=pi(tj),得到τ(g)=fBf\n[0048] 3)对于m维中的每一分量,τ(g)由全局坐标f来表达,将m维中值τ(g)累加起来,对于第i个样本xi,得到目标值为:\n[0049] \n[0050] 其中 将所有n个训练数据的目标值加起来,得到总体的\n目标值:\n[0051] \nT\n[0052] 令L′=SBS,这样就得到了基于局部样条嵌入的拉普拉斯矩阵L′。\n[0053] 所述的根据类间散度矩阵和类内散度矩阵以及拉普拉斯矩阵构成局部样条嵌入正交半监督子空间模型,通过寻找转换矩阵来对原始高维特征向量训练样本进行降维,得到低维特征向量训练样本步骤为:\n[0054] 1)通过学习得到正交投影矩阵 m<d,能保证训练样本在经过a降维后类间离散度尽量大和类内离散度尽量小,同时使得原始空间中相邻样本在投影后低维子空间中仍然相邻,即求解以下最优化问题:\n[0055] \n[0056] s.t.aTa=I\n[0057] 这样,可通过求解矩阵的广义特征根得到优化的投影矩阵a;\n[0058] 2)由投影矩阵a实现对原始高维特征向量的维度降低,从而获得图像数据的低维T\n表达X′=aX。\n[0059] 所述的采用支持向量机对降维后的低维特征向量训练样本集合建立分类器模型步骤为:分类器模型的输入是经过正交投影矩阵a降维得到的低维特征向量 以及相应的类别标识yi∈{+1,-1},输出是分类器模型的张量超平面参数 和通过求解最优化问题 得到 和b,其中c是常量,ξ是\n松弛因子。\n[0060] 所述的对于测试数据集,由训练集合计算得到的投影矩阵进行投影后,再通过分类器模型进行分类步骤为:训练样本集合外的测试样本数据 由正交投影矩阵a映射为低维子空间中的 然后通过分类器模型进行类别检测,即计算来得到测试数据的类别标识yt∈{+1,-1}。\n[0061] 实施例\n[0062] 1.对每个图像数据集选取n个样本数据作为训练集,训练集包括有标注信息的训练样本和未标注信息的训练样本,其余作为测试集;\n[0063] 2.利用有标注信息的训练样本构造类间散度矩阵和类内散度矩阵:\n[0064] 给定属于c类的n个样本所组成的训练集合X={x1,..,xl,xl+1,...,xn},其中i=1,...,n,前l个样本 具有类别标注信息 剩余n-l个\n样本 没有被标注。利用包含标注信息训练样本 构造类间散度矩阵Sb和类内散度矩阵Sw:\n[0065] \n[0066] \n[0067] 其中,lk表示属于第k类的训练样本个数, 表示第k类中第i个样本,为 均值, 表示第k类中样本均值。\n[0068] 3.利用整体训练样本数据的特征空间分布,通过局部样条嵌入方式构造拉普拉斯矩阵:\n[0069] 假定给定样本 的k近邻数据的局部低维嵌入坐标和全局低维嵌入坐标为和 1≤i≤n,1≤j≤k。对于m维中的每一分量,希望分别构造一个样条\n函数g(t),使得如下插值条件成立:\n[0070] fj=g(tj),j=1,2,...,k (1)\n[0071] 为了得到样条函数g,最小化如下函数:\n[0072] \n[0073] 其中λ>0是一个正则化参数,是样条函数g在d维空间里的罚函数。\n[0074] 在一定条件下,存在一个唯一的样条函数使得公式(2)中样条函数g(t)最小化:\n[0075] \n[0076] 其中l=(d+s-1)!/(d!(s-1)!), 构成了一个阶数不小于s的多项式空间,2s>d。φj(t)是一个格林函数。\n[0077] 为了保证解的唯一性,还需要满足如下边界条件:\n[0078] \n[0079] 当满足式(4)时,式(3)中的函数φj(·)是条件正定的。\n[0080] 将式(1)和式(4)代入式(3),系数向量 β=[β1,\nT\nβ2,...,βl] 通过解下面的线性方程组获得:\n[0081] \n[0082] 其中f=[f1,...,fk]T, K是一个k×k的对称矩阵,Kij\n=φ(‖ti-tj‖),P是一个l×k的矩阵,Pij=pi(tj)。因为φj(·)是一条件正定函数,因此上述方程组存在唯一解。\n[0083] 化简式(2)得:\nT T\n[0084] τ(g)∝ηKη=fBf (5)\n-1\n[0085] 其中B是A 中大小为k×k最左上子矩阵。\n[0086] 根据式(5),对于m维中的每一分量,式(2)的值τ(g)可以由全局坐标f来表达。\n将m维中值τ(g)累加起来,对于第i个样本xi,得到目标值为:\n[0087] \n[0088] 其中\n[0089] 将所有n个训练数据的目标值加起来,得到总体的目标值:\n[0090] \n[0091] 其中 F=[f1,f2,...,fn],\nT\n是列选择矩阵,使得Fi=FSi。令L′=SBS,这样就得到了基于局部样条嵌入的拉普拉斯矩阵L′。\n[0092] 4.根据局部样条嵌入的正交半监督子空间模型,通过寻找转换矩阵实现对原始高维特征向量的维度降低:\n[0093] 1)通过学习得到正交投影矩阵 m<d,能保证训练样本在经过a降维后类间离散度尽量大和类内离散度尽量小,同时使得原始空间中相邻样本在投影后低维子空间中仍然相邻。即求解以下最优化问题:\n[0094] \nT\n[0095] s.t.aa=I\n[0096] 这样,可通过求解矩阵的广义特征根得到优化的投影矩阵a:\nT\n[0097] Sba=λeig(Sw+γXL′X)a\n[0098] 2)由投影矩阵a实现对原始高维特征向量的维度降低,从而获得图像数据的低维T\n表达X′=aX。\n[0099] 5.采用支持向量机对降维后的训练样本集合建立分类器模型:\n[0100] 分类器模型的输入是经过正交投影矩阵a降维得到的低维特征向量 以及相应的类别标识yi∈{+1,-1},输出是分类器模型的张量超平面参数 和通过求解最优化问题 得到 和b,其中c是常量,ξ是\n松弛因子。\n[0101] 6.对于测试数据集,由训练集合计算得到的投影矩阵进行投影后,再通过分类器模型进行分类:\n[0102] 训练样本集合外的测试样本数据 由正交投影矩阵a映射为低维子空间中的 然后通过分类器模型进行类别检测,即计算 来\n得到测试数据的类别标识yt∈{+1,-1}。\n[0103] 图2给出了本发明的5幅图像分类结果。
法律信息
- 2019-06-28
未缴年费专利权终止
IPC(主分类): G06K 9/62
专利号: ZL 201010220132.7
申请日: 2010.07.06
授权公告日: 2012.08.29
- 2012-08-29
- 2011-02-02
实质审查的生效
IPC(主分类): G06K 9/62
专利申请号: 201010220132.7
申请日: 2010.07.06
- 2010-12-15
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2010-06-23
|
2009-10-16
| | |
2
| |
2008-10-29
|
2008-05-07
| | |
3
| |
2009-09-02
|
2008-02-29
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 1 | | 2012-09-28 | 2012-09-28 | | |