一种跨文本模态和图像模态的数据检索方法\n技术领域\n[0001] 本发明涉及计算机视觉、模式识别、多媒体检索等数据检索技术领域,特别是涉及一种跨文本模态和图像模态的数据检索方法。\n背景技术\n[0002] 目前处于移动互联网时代,数据量与日俱增,尤其是绝大多数数据携有多模态信息。其中,以网页为例,一个网页文件既包括了文本信息又包括了图像信息,如何合理的利用多模态信息设计,实现更为人性化的搜索引擎备受人们关注。然而,值得注意的是,文本模态、图像模态这两种模态在特征表达层面并不对称,除此以外,这两种模态特征的长度以及区分能力更是相差很大,这为跨模态检索带来很大的挑战。目前,与单一模态的图像或文本模态检索相比较而言,跨模态检索有着更大的应用前景,目前,热门正在不断推进跨模态检索领域的发展。\n[0003] 通常,一个跨模态检索系统采用共享子空间的方法,希望不同模态在子空间上的表达满足一定的特性,比如,同一对样本的表达尽可能接近,不同对样本的表达尽可能疏远。根据给定信息的丰富程度,可以将跨模态检索任务分为两种,即无监督跨模态检索和有监督跨模态检索。这两种检索任务最大的差异在于是否存在额外的语义标注信息。仍以网页为例,图像信息来源自一部电影的海报,文本信息来源电影内容的描述,无监督跨模态只需要知道哪些电影海报和哪些电影内容是对应的,而有监督跨模态检索还需要知道这些电影海报以及电影内容对应属于哪个类别,属于恐怖类别、喜剧类别或者科幻类别等等。\n[0004] 为了提高跨模态检索的效果,目前,越来越多的研究侧重于有监督的任务。在这些研究中,尤以基于子空间学习的方法最受研究者青睐。其基本思想是,希望学习到一个子空间,使得文本、图像两种模态在这个空间上的投影满足一些限制条件。这些限制条件包括同一文本、图像对之间的子空间表达尽可能接近,同类(语义标注信息一致)的图像和文本对相比于不同类(语义标注信息不一致)的图像和文本对更加接近。利用这些约束条件,去优化求解满足条件的子空间,最终在这个子空间上进行最后的检索任务。\n[0005] 然而,当前的子空间学习方法存在一个很大的弊端,即求解的时间和空间复杂度比较大,严重影响了跨模态检索的效率。这是因为现有技术人员在设计子空间学习时加入了诸如稀疏表示还有低秩等模式识别中常见的约束。这些约束一方面增加了优化求解的难度,另一方面,放缩后的优化求解也不能保证解的最优性。其中,以低秩约束为例,处理低秩约束通常使用多乘子交替方向法ADMM迭代优化算法,这样,在每一次迭代中会不可避免的出现F范数与核范数共存的情况,在这种情况下,特征值分解用于优化求解,然而,随着样本的增加,矩阵特征值分解的时、空间复杂度太大,不方便投入到实际应用中。除此以外,传统的跨模态算法,诸如相关成分分析以及偏最小二乘等经典算法往往采用线性的投影函数,从原始特征空间计算其在共享子空间上的投影。\n[0006] 因此,目前迫切需要开发出一种方法,其可以在保证高精度的同时,快速、有效地对大规模的数据进行跨模态检索,显著减少跨模态检索的时间,节约人们宝贵的时间,满足人们对跨模态数据的检索需求。\n发明内容\n[0007] 有鉴于此,本发明的目的是提供一种跨文本模态和图像模态的数据检索方法,其与现有模态检索方法相比较,可以在保证高精度的同时,快速、有效地对大规模的数据进行跨模态检索,显著减少跨模态检索的时间,节约人们宝贵的时间,满足人们对跨模态数据的检索需求,可以很好地适用于计算机视觉、模式识别、多媒体检索等数据检索技术领域,具有重大的生产实践意义。\n[0008] 为此,本发明提供了一种跨文本模态和图像模态的数据检索方法,其特征在于,包括以下步骤:\n[0009] 第一步:将文本模态数据库中的全部文本模态数据和图像模态数据库中的全部图像模态数据分成多个样本对,每个样本对包括一个文本模态数据和一个图像模态数据;\n[0010] 第二步:将每个样本对的特征进行联合聚类,获得全部文本模态数据和图像模态数据的联合聚类中心;\n[0011] 第三步:根据所述联合聚类中心,对全部的文本模态数据和图像模态数据分别进行主亲和力的计算,分别获得本模态数据和图像模态数据的主亲和力非线性表达;\n[0012] 第四步:根据文本模态数据和图像模态数据自身具有的语义标注信息,生成一组长度等于类别数的语义向量,并将所述语义向量作为逻辑斯特回归分类器的输出表达,同时将文本模态数据和图像模态数据的主亲和力非线性表达中心化后作为输入表达来进行逻辑斯特回归分类器的训练,最终训练得到多个分类函数;\n[0013] 第五步:当用户需要检索至少一个文本模态数据样本或者图像模态数据样本时,分别计算该文本模态数据样本或者图像模态数据样本的主亲和力并将该主亲和力输入到所述分类函数中,分别得到文本模态数据样本或者图像模态数据样本的语义层表达;\n[0014] 第六步:将所述文本模态数据样本和图像模态数据样本的语义层表达进行归一化处理,分别生成最终的文本模态数据样本和图像模态数据样本的语义层表达;\n[0015] 第七步:根据所述最终的文本模态数据样本和图像模态数据样本的语义层表达,利用内积距离计算公式计算用户需要检索的文本模态数据样本与作为待检索对象的所述图像模态数据库内所有图像模态数据的距离,按照距离大小的升序输出对所述图像模态数据库内所有图像模态数据的检索结果,或者计算用户需要检索的图像模态数据样本与作为待检索对象的所述文本模态数据库中所有文本模态数据的距离,按照距离大小的升序输出对所述文本模态数据库内所有文本像模态数据的检索结果。\n[0016] 其中,所述第二步具体包括以下步骤:\n[0017] 首先,将每个不同的样本对,即文本模态数据和图像模态数据对的特征串联起来,得到全部样本对初始特征串联的顺序fi=[fi(1)fi(2)],fi(1)和fi(2)分别为文本模态数据和图像模态数据对应的原始特征表达;\n[0018] 接着,利用联合聚类算法得到全部样本对的初始特征串联的顺序fi,i∈[1,n]的聚类中心uj,j∈[1,m],其中m和n分别为聚类中心的数目以及训练样本个数;\n[0019] 最后,将获得的所述聚类中心uj,j∈[1,m]按照全部样本对初始特征串联的顺序fi(1) (2)\n=[fi fi ]重新拆成 两个部分,这样得到的 和 认定为文本模态和图\n像模态这两种不同模态数据的联合聚类中心。\n[0020] 其中,在所述第三步中,采用径向基函数作为主亲和力的测度,所述第三步具体包括以下步骤:\n[0021] 利用径向基函数核 其中x和y分别指代任意两个向量,δ指的是\n核函数的宽度,分别计算文本模态数据和图像模态数据的原始特征距离与其m个聚类中心k∈[1,2],j∈[1,m]的主亲和力表达 i∈[1,m],k∈[1,2],展开如下:\n[0022]\n[0023] 其中k等于1和2分别代表文本和图像两种模态的数据,m为大于0的整数。\n[0024] 其中,在所述第四步中,对所述文本模态数据和图像模态数据的主亲和力非线性表达进行中心化处理的操作如下:\n[0025]\n[0026]\n[0027] 其中,所述第四步具体包括以下步骤:\n[0028] 将文本模态数据和图像模态数据的主亲和力非线性表达中心化后,作为带有L2约束的多类逻辑斯特回归函数的输入表达, 作为回归函数的输出表达,对应文本模态数据和图像模态数据,分别训练出对应的分类函数 k∈[1,2],i∈[1,t],其中,yi=[0,0...,1,...0,0]t∈Rt中非零元素1的位置对应于训练样本的标签信息,t为文本模态数据和图像模态数据中的不同语义标签的类别数目。\n[0029] 其中,所述第五步具体包括以下步骤:\n[0030] 对输入的文本或图像模态数据样本 首先分别计算出他们的主亲和力表达减去主亲和力表达的均值后,再分别利用其对应的分类函数 k∈[1,\n2],i∈[1,t],计算其在语义空间的表达 其中 s(x,\ny)=xTy,k等于1和2分别为文本和图像两种模态数据下的语义层表达。\n[0031] 其中,所述第六步具体包括步骤:\n[0032] 将所述文本模态数据样本和图像模态数据样本的语义层表达分别投影到单纯形上,实现归一化处理,分别生成最终的文本模态数据和图像模态数据的语义层表达,归一化处理如下:\n[0033]\n[0034] 其中,在所述第七步中,所述需要检索的文本模态数据样本或者图像模态数据样本,与对应的作为待检索对象的另外一种模态数据库,即所述图像模态数据库或者文本模态数据库的内积距离计算公式为:\n[0035]\n[0036] 式中,x和y均为列向量,x指代任意的图像特征向量,y指代任意的文本特征向量,r为作为待检索对象的另外一种模态数据库的大小, 和 分别为文本模态和图像模态这两种模态数据库下第i个样本的归一化后语义层表达,i为大于0的整数。\n[0037] 由以上本发明提供的技术方案可见,与现有技术相比较,本发明提供了一种跨文本模态和图像模态的数据检索方法,其与现有模态检索方法相比较,可以在保证高精度的同时,快速、有效地对大规模的数据进行跨模态检索,显著减少跨模态检索的时间,节约人们宝贵的时间,满足人们对跨模态数据的检索需求,可以很好地适用于计算机视觉、模式识别、多媒体检索等数据检索技术领域,具有重大的生产实践意义。\n附图说明\n[0038] 图1为本发明提供的一种跨文本模态和图像模态的数据检索方法的流程图;\n[0039] 图2是文本模态数据库中的文本模态数据和图像模态数据库中的图像模态数据经过主亲和力表达的示意图,黑色实心点分别表示为文本和图像聚类中心,月亮形代表当前待检索的样本;\n[0040] 图3是本发明在PASCAL-VOC、NUS-WIDE以及Wiki等三个数据库上检索效果的平均准确率与其他方法的对比示意图。\n具体实施方式\n[0041] 为了使本技术领域的人员更好地理解本发明方案,下面结合附图和实施方式对本发明作进一步的详细说明。\n[0042] 本发明提供了一种跨文本模态和图像模态的数据检索方法,其针对实际环境下基于子空间学习的跨模态检索算法优化算法的时间和空间复杂度较高以及效果并不理想的问题,本发明通过基于主亲和力的跨模态模型合理利用非线性特征表达能力,并将语义标准信息作为共享子空间,避免了传统子空间学习面临的优化难题,从而最终得到的检索方法具有更好的适应性,并在实验中取得了最好的效果。本发明一方面可以减小检索过程中运算的时间和空间复杂度,另一方面提高了跨模态数据检索的效率和准确度。\n[0043] 参见图1,本发明提供了一种跨文本模态和图像模态的数据检索方法,该方法包括以下步骤:\n[0044] 步骤S101:将文本模态数据库中的全部文本模态数据和图像模态数据库中的全部图像模态数据分成多个样本对,每个样本对包括一个文本模态数据和一个图像模态数据;\n[0045] 步骤S102:将每个样本对的特征进行联合聚类,获得全部文本模态数据和图像模态数据的联合聚类中心;\n[0046] 步骤S103:根据所述联合聚类中心,对全部的文本模态数据和图像模态数据(即两种模态数据)分别进行主亲和力的计算,分别获得本模态数据和图像模态数据的主亲和力非线性表达;\n[0047] 步骤S104:根据文本模态数据和图像模态数据自身具有的语义标注信息(即语义标签),生成一组长度等于类别数(其中类别数指的是所有文本模态数据或图像模态数据不同语义标签的个数)的语义向量,并将所述语义向量作为逻辑斯特回归分类器的输出表达,同时将文本模态数据和图像模态数据的主亲和力非线性表达中心化后作为输入表达来进行逻辑斯特回归分类器的训练,最终训练得到多个分类函数;\n[0048] 步骤S105:当用户需要检索至少一个文本模态数据样本或者图像模态数据样本时,分别计算该文本模态数据样本或者图像模态数据样本的主亲和力并将该主亲和力输入到所述分类函数中(即步骤S104中逻辑斯特回归获得的分类函数),分别得到文本模态数据样本或者图像模态数据样本的表达,称之为语义层表达;\n[0049] 步骤S106:将所述文本模态数据样本和图像模态数据样本的语义层表达进行归一化处理,分别生成最终的文本模态数据样本和图像模态数据样本的语义层表达;\n[0050] 步骤S107:根据所述最终的文本模态数据样本和图像模态数据样本的语义层表达,利用内积距离计算公式计算用户需要检索的文本模态数据样本与作为待检索对象的所述图像模态数据库内所有图像模态数据的距离,按照距离大小的升序(即递增排序)输出对所述图像模态数据库内所有图像模态数据的检索结果,或者计算用户需要检索的图像模态数据样本与作为待检索对象的所述文本模态数据库中所有文本模态数据的距离,按照距离大小的升序(即递增排序)输出对所述文本模态数据库内所有文本像模态数据的检索结果。\n[0051] 对于本发明,在步骤S102中,本发明所使用的特征为现有不同模态的常用特征,如文本模态下的隐含狄利克雷分配LDA特征、图像模态下的尺度不变特征转换SIFT特征或者场景自发激活记忆GIST特征等,需要事先分别对不同模态提取这些相应的特征。\n[0052] 在步骤S102中,需要说明的是,将每个样本对的特征串联起来进行联合聚类,可以使用现有的k均值聚类算法或者其他可以实现联合聚类的算法。\n[0053] 对于本发明,具体实现上,所述步骤S102具体包括以下步骤:\n[0054] 步骤S1021:首先,将每个不同的样本对,即文本模态数据和图像模态数据对的特征串联起来,分别得到全部样本对的初始特征串联的顺序fi=[fi(1) fi(2)],fi(1)和fi(2)分别为文本模态数据和图像模态数据对应的原始特征表达;\n[0055] 步骤S1022:接着,利用联合聚类算法得到全部样本对的初始特征串联的顺序fi,i∈[1,n]的聚类中心uj,j∈[1,m],其中m和n分别为聚类中心的数目以及训练样本个数,m通常设置为多个模态(如文本模态和图像模态)数据中最长的特征的长度;\n[0056] 步骤S1023:最后,将获得的所述聚类中心uj,j∈[1,m]按照全部样本对初始特征串联的顺序fi=[fi(1) fi(2)]重新拆成 两个部分,这样得到的 和 就可以\n认定为文本模态和图像模态这两种不同模态数据的联合聚类中心。\n[0057] 对于本发明,为了不影响以上步骤S102的运算执行时间,本发明采用了一种现有快速的k均值聚类算法lites-kmeans。\n[0058] 对于步骤S103,本发明在跨模态问题中引入主亲和力表达,相比较传统的相关成分分析等原始特征,增加了模型的表达能力,与此同时相比核方法选用所有样本之间的亲和力关系作为输入,主亲和力大大减小了算法的存储空间。\n[0059] 在步骤S103中,具体实现上,可以采用径向基函数作为主亲和力的测度。因此,对于本发明,所述步骤S103具体可以包括以下步骤:\n[0060] 参见图2,利用径向基函数核 其中x和y分别指代任意两个向\n量,δ指的是核函数的宽度,分别计算文本模态数据和图像模态数据的原始特征与其模态下m个(m为大于0的整数)聚类中心 k∈[1,2],j∈[1,m]的主亲和力表达 i∈[1,m],k∈[1,2],其中k等于1和2分别代表文本和图像两种模态,也就是图2中模态1和模态2分别代表文本模态和图像模态两种模态的数据,该主亲和力表达展开如下:\n[0061]\n[0062] 为了方便起见,这里的δ并没有使用距离的均值而是取了经验值0.4作为标准差。\n[0063] 在步骤S104中,具体实现上,所述文本模态数据和图像模态数据的主亲和力非线性表达优先进行中心化处理,然后输入到带有L2约束的多类逻辑斯特回归函数中,这样做的好处在于避免接下来训练分类函数出现的非零偏置问题。中心化处理操作如下所示:\n[0064]\n[0065]\n[0066] 因此,对于本发明,所述步骤S104具体可以包括以下步骤:\n[0067] 将文本模态数据和图像模态数据的主亲和力非线性表达中心化后,作为带有L2约束的多类逻辑斯特回归函数的输入表达, 作为回归函数的输出表达,对应文本模态数据和图像模态数据,分别训练出对应的分类函数 k∈[1,2],j∈[1,m],其中yi=[0,0...,1,...0,0]t∈Rt中非零元素的位置对应于训练样本的标签信息,t为多模态数据(文本模态数据和图像模态数据)中的不同语义标签的类别数目。\n[0068] 具体实现上,所训练出的t个分类函数即为 k∈[1,2],i∈[1,t],其中t为训练样本的类别总数(即不同语义标签的个数),目标函数如下所示:\n[0069]\n[0070] 其中,C为超参数,通过交叉验证选取,最小化 而不是 是为了\n增加代价函数的连续性,方便优化。\n[0071] 具体实现上,利用现有的liblinear相关工具可以快速的对上面的目标函数进行优化。\n[0072] 在本发明中,值得注意的是,带有L2约束的多类逻辑斯特回归函数有且只有一个参数,即上面公式中的C,本发明选用的C在50~100之间。相比于传统的多类逻辑斯特回归函数,增加L2约束可以最大化分类界面之间的距离,类似于支持向量机SVM的最大化间隔机制。\n[0073] 在本发明中,对于步骤S105,在数据的检索阶段,对输入的文本或图像模态数据样本 首先分别计算出他们的主亲和力表达 减去主亲和力表达的均值后,再分\n别利用其对应的分类函数 k∈[1,2],i∈[1,t],计算其在语义空间的表达\n其中 s(x,y)=xTy,k等于1和2分别为文本和图像\n两种模态数据下的语义层表达。\n[0074] 对于本发明,所述步骤S106具体为:将所述文本模态数据样本和图像模态数据样本的语义层表达分别投影到单纯形上,实现归一化处理,分别生成最终的文本模态数据样本和图像模态数据样本的语义层表达。具体归一化处理如下:\n[0075]\n[0076] 在本发明中,对于步骤S107,需要说明的是,对于一个用户需要检索的文本模态数据样本,其与作为检索对象的图像模态距离越近,说明它们的相似度越高,跨模态检索的准确性也就越高。\n[0077] 在本发明中,对于步骤S107,所述内积距离计算公式为:\n[0078]\n[0079] 式中,x和y均为列向量,x指代任意的图像特征向量,y指代任意的文本特征向量,r为作为待检测对象的另外一种模态的数据库大小, 和 分别为文本模态和图像模态这两种模态数据库下第i个样本的归一化后的语义层表达,i为大于0的整数。\n[0080] 对于步骤S107,需要说明的是,根据内积距离分别计算文本模态和图像模态这两种模态最终共享子空间的距离,以文本模态下第i个测试样本 跨模态检索为例, 作为用户需要检索的文本模态数据样本(即查询样本), i∈[1,r]作为待检索对象的图像模态数据库,在共享子空间上计算查询样本与待检索对象的图像模态数据库的相似度距离s(x,y)=xTy,并对 进行递增排序,就是对\n跨模态检索后的结果。\n[0081] 对于本发明,开展跨模态检索采用的协议是,给定一个文本模态数据的表达计算其与另一个图像模态数据库中多个图像的表达 i∈[1,r]的内积距离,按照内积距离的大小关系进行重新升序排序,即为跨模态的检索结果,实现需要检索的文本模块数据样本在另外一种模态数据库(即图像模态数据库)中的跨模态检索。以次类推,本发明还可以进行用户输入的图像模态数据样本在另外一种模态数据库(即文本模块数据库)中的跨模态检索。\n[0082] 为更加清楚地理解本发明的技术方案,下面结合具体实施例来进一步说明。\n[0083] 为了详细说明本发明的具体实施方式及验证本发明的有效性,将本发明提出的方法应用于三个公开的常用跨模态数据库,即PASCAL-VOC、NUS-WIDE和Wiki数据库。其中,PASCAL-VOC数据库包含20类文本、图像对,其中2808幅训练图像和文本对,2841幅测试图像和文本对,其中图像特征用512维场景自发激活记忆Gist特征,文本特征来自于399维的词频特征;NUS-WIDE数据库则包含21类文本、图像对,其中36110幅训练图像和文本对,36109幅测试图像和文本对,其中图像特征用500维尺度不变特征转换Sift特征,文本特征来自于\n1000维的词频特征;Wiki数据库则包含10类文本和图像对,其中1300幅训练图像和文本对,\n1566幅测试图像和文本对,其中图像特征用128维Sift特征,文本特征来自于10维的隐含狄利克雷分配LDA特征。\n[0084] 按照上面本发明提供的运行步骤S103,本发明可以首先将所有训练集数据输入模型进行训练,针对3个数据库,聚类数目应和原始的特征维度一致,设为500,500和200,这样得到的主亲和力分别中心化后,送入到多类逻辑斯特模型中,得到相应数目的分类函数W。\n对于测试标准,采用一个模态(如以文本模态数据样本作为查询样本)下的数据作为查询,另一个模态(如图像模态)下的数据作为待检索数据库进行实验。首先,对两个不同模态利用分类函数W分别计算其投影后的表达并进行归一化。最终直接利用内积距离计算需要查询的文本模态数据样本与图像模块数据库内所有图像模块数据的相似度,作为检索的指标。\n[0085] 图3展示了本发明提供的方法的平均准确度MAP和其他方法的对比,其中-i与-c分别表示使用内积距离和使用余弦距离的效果。有监督信息的3视角典范成分分析方法CCA-\n3V是跨模态检索最好的方法,语义对应匹配SCM是和本发明方法最为类似的方法,和这些方法比较,本发明提供的方法在查询文本和查询图像均能达到最好的检索效果。除此以外,使用内积距离可以进一步提高本发明的检索效果。因此,本发明在实际环境中的跨模态应用中是一种极为有效的方法,可以显著提高综合识别率。\n[0086] 需要说明的是,本发明在文本、图像跨模态检索的问题上提出了更加简洁的模型和方法,该方法也可以应用于其他跨模态任务上,如视频、文本。本发明提出的跨文本模态和图像模态的数据检索方法可以同时节约储存空间和时间代价,并显著提高文本、图像跨模态检索的效果。\n[0087] 由上面的技术方案可知,本发明提供了一种简单有效地跨模态学习算法。针对实际应用环境下的跨模态检索问题而提出,可以快速有效的返回跨模态数据检索的结果。本发明通过引入与联合聚类中心的亲和关系,增强了模型的拟合能力,同时与以往基于子空间学习算法的检索方法不同,不需要学习共享子空间,而是本发明采取两步算法,在第一步给定样本对的子空间表达,本发明使用的是语义信息表达yi,为了避免模型的拟合程度不够,选用主亲和力作为特征非线性映射的一种方式,最后使用L2约束的多类逻辑斯特模型学习非线性特征与语义信息之间的投影函数W,从而本发明提供的方法大大减小了模型的存储空间复杂度和计算时间复杂度,加快了大规模跨模态数据的训练时间,最终可以获得更好的跨模态数据检索效果。\n[0088] 因此,基于本发明提供的一种跨文本模态和图像模态的数据检索方法,其与现有模态检索方法相比较,可以在保证高精度的同时,快速、有效地对大规模的数据进行跨模态检索,显著减少跨模态检索的时间,节约人们宝贵的时间,满足人们对跨模态数据的检索需求,可以很好地适用于计算机视觉、模式识别、多媒体检索等数据检索技术领域,具有重大的生产实践意义。\n[0089] 以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。