著录项信息
专利名称 | 基于图像哈希的大规模图像库检索方法 |
申请号 | CN200910220599.9 | 申请日期 | 2009-12-04 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2010-05-19 | 公开/公告号 | CN101710334A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0;;;G;0;6;K;9;/;6;2查看分类表>
|
申请人 | 大连理工大学 | 申请人地址 | 辽宁省大连市甘井子区凌工路2号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 大连理工大学 | 当前权利人 | 大连理工大学 |
发明人 | 孔祥维;付海燕;杨德礼;郭艳卿 |
代理机构 | 大连理工大学专利中心 | 代理人 | 侯明远 |
摘要
一种基于图像哈希的大规模图像库检索方法,属于图像检索技术领域,涉及基于内容的图像检索方法。其特征是从待检索的图像库中选取与查询图像相关的训练图像;分别提取待检索图像、训练图像和查询图像的Gist特征。利用K均值聚类法将训练特征聚成C类;对每类样本特征,计算其超球面分类函数由此定义哈希函数为计算待检索图像特征和查询图像特征的哈希序列;并计算查询图像哈希序列与待检索图像哈希序列之间的汉明距离;设定阈值d,返回相似的图像。本发明的效果和益处是克服了LSH方法哈希函数数量多的问题;解决了谱哈希法和语义哈希法不能扩展到核空间的问题,同时也完善了KLSH方法计算哈希函数时对样本的选择问题。
基于图像哈希的大规模图像库检索方法\n技术领域\n[0001] 本发明属于图像检索技术领域,涉及到基于内容的图像检索方法,特别涉及到一种基于图像哈希的大规模图像库检索方法。\n背景技术\n[0002] 基于内容的图像检索自上世纪九十年代出现以来一直倍受研究者关注,出现了很多优秀的技术和方法,研究热点主要集中于图像特征表示、相似性度量和人工反馈等。\n[0003] 准确、快速地搜索是衡量基于图像检索方法优劣的两个重要指标。现有检索方法通过提取图像的低层特征对图像内容进行描述,然后利用特征比对判断是否为相似图像。\n为了提高搜索的准确率,提取的图像特征往往成百上千维,当图像库达到几十万或者海量时,必然需要庞大的存储空间保存图像的特征库。另外,每一次搜索都需要将查询特征与特征库中的所有特征进行比对、排序,极大的降低了搜索速度。\n[0004] 为了降低特征存储空间,提高搜索速度,有研究提出用哈希序列作为图像特征。\n这类研究主要解决如何构造低维二值模式,也就是如何生成哈希序列的问题。一个最经典同时应用也比较广泛的算法是locality-sensitive hashing(LSH)方法,[P.Indyk and R.Motwani.Approximate Nearest Neighbors:Towards Removing the Curse of Dimensionality.In STOC,1998.]该方法利用随机映射产生二值哈希序列。该技术的优点是,当哈希序列的比特数增加时,随机映射能够保留原始输入数据之间的距离在一个范围内。但其缺点是,为了保留原始输入数据之间的距离趋势,所需的哈希比特往往比较多。\n[0005] 为了克服LSH的缺点,语义哈希(Semantic Hashing)方法,[R.R.Salakhutdinov and G.E.Hinton.Learning a Nonlinear Embedding by Preserving Class Neighborhood Structure.In AISTATS,2007.] 和 谱 哈 希 (Spectral Hashing) 方 法,[Y.Weiss,A.Torrelba,and R.Fergus.Spectral Hashing.In NIPS,2008]利用机器学习的方法寻找合适的哈希函数,建立哈希构造机制。这两个方法在近似搜索降低哈希比特方面比LSH方法更优秀,其中谱哈希方法证明,只利用32比特哈希值就能以较高的准确率搜索出相关图像。但这两种方法的缺点是,不能被直接应用到核空间,而且根据经验预先假定原始输入数据的分布规律,例如谱哈希方法认为输入数据在欧氏空间中服从均匀分布。这一假定没有任何理论依据。\n[0006] 为了克服谱哈希和语义哈希方法的缺点,基于核的LSH方法(Kemelized Local-Sensitive Hashing,KLSH)方法[Brian Kulis and Trevor Darrell.Learning to Hash with Binary Reconstructive Embeddings.In Neural Information Processing Systems(NIPS),2009]利用坐标下降法对哈希函数进行学习,将哈希方法扩展到核函数空间。但KLSH随机选择训练样本构造哈希函数,虽然操作简单,但当样本分布不均匀时,随机选择样本会导致核函数加权系数误差偏大。\n发明内容\n[0007] 本发明要解决的技术问题是针对海量图像检索存在的图像特征库存储空间大,检索速度慢的问题,克服LSH,Semantic Hashing,Spectral Hashing和KLSH方法存在的不足,提出一种基于图像哈希的大规模图像库检索方法。\n[0008] 本发明的技术方案是:对于图像库中的图像,采用特征描述符提取特征向量,作为检索特征。通过已知标签的训练样本,利用优化方法求得超球面分类面,并由此构造哈希函数。根据哈希函数,对特征库中的每个特征向量产生一串哈希序列,将特征向量映射到汉明空间中。对于每一幅查询图像,计算其与待检索图像哈希序列之间的汉明距离,利用距离大小衡量待检索图像与查询图像之间的相似性,返回相似度高的图像。具体实现步骤包括:\n[0009] (1)建立图像库I={I1,I2,...,IN},其中包含N幅图像。从图像库中挑选M幅(M<N)包含同一对象的图像,组成训练库T={T1,T2,...,TM}。\n[0010] (2)对于图像库I和训练库T中的每一幅图像,利用Gist描述符提取图像的纹理特征,每一幅图像用一个高维特征向量表示。图像库对应的所有特征向量组成图像特征库GI={GI1,GI2,...,GIN},特征库中的每个特征向量GIi,(1≤i≤N)和图像库中的每幅图像Ii,(1≤i≤N)一一对应。训练库对应的所有特征向量组成训练特征库GT={GT1,GT2,...,GTM},特征库中的每个特征向量GTi,(1≤i≤M)和训练库中的每幅图像Ti,(1≤i≤M)一一对应。\n[0011] (3)对于训练特征库中的M个特征向量GT={GT1,GT2,...,GTM},利用K均值聚类将其聚成C类,得到C组聚类样本S={S1,S2,...,SC}。\n[0012] (4)对于每一组聚类样本Si,(1≤i≤C),定义基于核函数的超球面分类函数:\n[0013] \n[0014] 其中mi是Si,(1≤i≤C)中包含的样本数;αi是mi维向量,通过训练得到;K(Si,x)是核函数,选择径向基核函数。\n[0015] 根据已知的训练样本Si,(1≤i≤C),求解如下方程得到αi:\n[0016] \n[0017] 约束条件为\n[0018] <αi·Si>>1,i=1,2,...,C\n[0019] 从而确定最优超球面分类面,该分类面是能最大限度的包含所有聚类样本的最小分类面。\n[0020] (5)根据已求得的超球面分类函数P(x)={P1(x),P2(x),...,PC(x)},定义哈希函数簇H(x)={H1(x),H2(x),...,HC(x)},其中\n[0021] \n[0022] 对于特征库中的每个特征向量GIi,(1≤i≤N),利用哈希函数簇H(x)={H1(x),H2(x),...,HC(x)}生成长度为C的哈希序列HIi={H1Ii,...,HCIi},(1≤i≤N)。\n[0023] (6)对于查询图像Q,提取其Gist特征向量GQ后,利用哈希函数簇H(x)={H1(x),H2(x),...,HC(x)}构造其对应的查询哈希序列HQ={H1Q,...,HCQ}。\n[0024] (7)对于查询哈希序列HQ={H1Q,...,HCQ}和图像特征库的每个哈希序列HIi={H1Ii,...,HCIi},(1≤i≤N),计算它们之间的汉明距离DHiQ=∑xor(HIi,HQ),(1≤i≤N),根据距离大小判断图像库中图像与查询图像之间的相似性。\n[0025] 关于Gist特征向量的提取可参考文献[Aude Oliva,Antonio Torralba,Modeling the shape of the scene:a holistic representation of the spatial envelope,International Journal of Computer Vision,Vol.42(3):145-175,2001]。\n[0026] 本发明的效果和益处是:本发明提出一种基于图像哈希的大规模图像库检索方法,通过对已知标签的图像特征进行聚类,确定最优超球面分类面,构造哈希函数。这种哈希函数构造方法克服了LSH方法需要哈希函数多的问题;解决了语义哈希和谱哈希方法不能扩展到核空间的问题,同时也完善了KLSH方法计算哈希函数时对样本的选择问题。\n附图说明\n[0027] 图1是一种基于图像哈希的大规模图像库检索方法的流程示意图。\n[0028] 图2是本发明用于建立训练图像库的样本图像图。\n[0029] 图3是其中4幅查询图像在24比特哈希值时检索返回的20幅图像,分两行显示,其中第一行最左边是查询图像图。\n[0030] 图4是本发明不同哈希比特对应的检索准确率曲线图。\n[0031] 图5是本发明不同哈希比特对应的检索召回率曲线图。\n具体实施方式\n[0032] 以下结合技术方案和附图详细叙述本发明的具体实施方式。\n[0033] 步骤1.图像库中包含5000幅1024×768像素的待检索图像,来源于公开的牛津大学建筑图像库。从中取出200幅用户感兴趣的图像作为训练图像,这200幅训练图像应包含同一对象,但允许对象的尺寸、角度、颜色和图像光强不同。部分训练图像样本如图2所示。\n[0034] 图 像 库 网 址 为:http://www.robots.ox.ac.uk/~ vgg/data/oxbuildings/index.html\n[0035] 步骤2.因为Gist描述符主要是提取图像的纹理特征,故,在此我们将5000幅待检索图像I={I1,I2,...,I5000}和200幅训练图像T={T1,T2,...,T200}由彩色图像变为灰度图像,并将其缩放至512×512像素。对I和T中的每一幅图像,在4个尺度,8个方向进行滤波,滤波后的图像进行4×4分块,获得其512维的Gist特征。待检索特征库和训练特征库分别为GI={GI1,GI2,...,GI5000}和GT={GT1,GT2,...,GT200}。\n[0036] Gist特征的提取过程可采用公开的matlab代码:\n[0037] http://people.csail.mit.edu/torralba/code/spatialenvelope/[0038] 步骤3.对于步骤2中200幅训练图像生成的训练特征GT={GT1,GT2,...,GT200},利用k均值聚类法将其聚成16类。对于每一组聚类样本Si,(1≤i≤16),定义超球面分类函数 其中mi是Si,(1≤i≤16)中包含的样本数;αi是mi\n维向量,通过训练得到;K(Si,x)是核函数,选择径向基核函数。根据已知的训练样本Si,(1≤i≤16),在约束条件为<αi·Si>>1,i=1,2,...,C下,求解方程 得到αi。αi确定后,该类的超球面分类函数 就确定了。依此类推,求\n解其他聚类样本的超球面分类函数。\n[0039] 步骤4.根据步骤3中求得的超球面分类函数 定义哈希函\n数簇为H={H1,H2,...,H16},其中\n[0040] \n[0041] 当已知加权向量αi后,对于待检索特征库中的每个样本GIi,(1≤i≤5000),利用H={H1(x),...,H16(x)}计算其哈希序列的值HIi={H1Ii,...,H16Ii},其中HjIi∈{0,\n1}。由于哈希序列是由0和1组成的,可以将每个哈希值作为1个比特,这样长度为16的哈希序列可以表示成16比特,也就是2个字节。相对于512维特征向量的512字节存储空间,哈希表示法极大的节省了存储空间。\n[0042] 步骤5.对于任意一幅查询图像Q,按照步骤2至步骤4所述的方法为其生成查询哈希序列HQ={H1Q,...,H16Q},其中HjQ∈{0,1}。计算查询哈希序列HQ={H1Q,...,H16Q}和待检索图像的哈希序列HIi={H1Ii,...,H16Ii}之间的汉明距离DHiQ=∑xor(HIi,HQ),(1≤i≤N),其中xor表示按位异或。\n[0043] 为进一步提高检索速度,在计算汉明距离之前,我们对待检索图像进行预排除:如果某待检索图像的哈希序列为全零值,则认为该图像与查询图像不相似,将其排除。理由如下:训练样本是用户挑选的其感兴趣的图像,也就是与查询图像相关或者相似的图像。对训练样本进行聚类后,通过训练得到该类的超球面分类面,分类面方程由函数Pi(x)表示。另一方面,因为由函数Pi(x)所确定的哈希函数Hi(x)用于判断一个未知样本是否包含于分类面之内,也就是说是否属于该类,如果属于该类,则函数值为1,如果不属于,则为0。所以如果一个未知样本的10个哈希值都为0,则说明该样本不属于10类中的任何一类,也就说明该样本与查询图像不相似。\n[0044] 步骤6.设定距离阈值为d。如果DHiQ<=d,则认为待检索图像Ii与查询图像Q相似,将其输出。距离阈值的取值由用户根据其检索准确率和召回率要求设定,在实验方案中,我们取d=1。\n[0045] 步骤7.对于大量不同的查询图像,根据检索结果,统计检索准确率和召回率。图\n3是4幅查询图像在距离阈值d=1时返回的检索图像,因篇幅限制,仅列出其中20幅检索图像。不同哈希比特数对应的检索准确率和召回率也不相同,如图4和图5所示。从图\n4和图5可得出如下结论,选择24比特哈希序列可得到最优的检索准确率和召回率。\n[0046] 以上内容是结合最佳实施方案对本发明所作的进一步详细说明,不能认定本发明的具体实施只限于这些说明。本领域的技术人员应该理解,在不脱离由所附权利要求书限定的情况下,可以在细节上进行各种修改,都应当视为属于本发明的保护范围。
法律信息
- 2017-01-18
未缴年费专利权终止
IPC(主分类): G06F 17/30
专利号: ZL 200910220599.9
申请日: 2009.12.04
授权公告日: 2012.01.25
- 2012-01-25
- 2010-07-07
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 200910220599.9
申请日: 2009.12.04
- 2010-05-19
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |