著录项信息
专利名称 | 一种可直接度量不同模态数据间相似性的跨模态检索方法 |
申请号 | CN201310410553.X | 申请日期 | 2013-09-10 |
法律状态 | 授权 | 申报国家 | 暂无 |
公开/公告日 | 2014-01-01 | 公开/公告号 | CN103488713A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 浙江大学 | 申请人地址 | 浙江省杭州市西湖区浙大路38号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 浙江大学 | 当前权利人 | 浙江大学 |
发明人 | 庄越挺;吴飞;王彦斐;汤斯亮;邵健 |
代理机构 | 杭州求是专利事务所有限公司 | 代理人 | 张法高 |
摘要
本发明公开了一种可直接度量不同模态数据间相似性的跨模态检索方法。它包括如下步骤:1)特征提取;2)模型建立和学习;3)跨媒体数据检索;4)结果评价。本发明可以直接在不同模态数据之间进行相似度比较,对于跨模态检索任务,用户可以提交任意模态的文本、图像、声音等,去检索他们需求的对应模态结果。本发明与传统跨媒体检索方法的区别在于可以直接进行不同模态数据之间的相似性比较,满足了跨媒体检索的需求,更加直接地实现了用户的检索意图,与其它可以直接度量不同模态相似性的跨媒体检索算法相比,本方法具有较强抗噪音干扰能力和对松散关联的跨模态数据的表达能力,使得检索效果更好。
1. 一种可直接度量不同模态数据间相似性的跨模态检索方法,其特征在于包括如下步 骤: 1) 对数据库中各个模态数据进行特征提取和标签记录; 2) 根据数据库中不同模态数据间的对应信息和标签信息,从重建的角度对不同模态配 对数据间的差异性和相似性进行表达,利用标签信息,构建跨模态检索整体模型并学习模 型参数; 3) 对用户提交的已知模态数据,进行特征提取后利用跨模态检索整体模型返回与之对 应的用户需求的其他模态数据; 4) 利用跨模态数据的真实对应信息和标签信息,对跨模态检索整体模型同时从对应信 息和区别性信息两方面来进行评价; 其中,所述的步骤1)具体包括: 1) 对数据库内所有的图像模态数据提取SIFT特征,并采用k-means方法进行聚类形成 视觉单词,然后对特征进行归一化,使代表每一个图像的特征矢量为单位矢量; 2) 对数据库内所有的文本模态数据进行词性标注,去除非名词单词,保留文本中的名 词,用所有数据库中出现过的单词构成一个词库,对每个文本单独统计词库中的单词出现 的次数,采用单文本词汇频率进行矢量化,然后对特征矢量进行归一化,使代表每一个文本 的特征矢量为单位矢量; 3) 对数据库中其他模态的数据,提取常用的行业标准特征,并对特征进行归一化,使代 表每一个数据的特征矢量为单位矢量; 4) 对数据库中对应的不同模态数据,统计它们的标签信息,即记录它们来自那个类别。
2. 根据权利要求1所述的一种可直接度量不同模态数据间相似性的跨模态检索方法, 其特征在于,所述的步骤2)包括: 1) 在跨模态检索中引入字典学习的概念,形成基于字典学习的跨模态检索算法,W字 典和稀疏系数重建各个模态的数据,不同的字典编码不同模态间的差别性,不同模态数据 间的相似性由稀疏系数间的关联关系矩阵来建模,字典、稀疏系数和关联关系矩阵均从各 模态数据中学习得到; 2) 利用标签信息参与跨模态检索,在字典学习中,属于同一标签的同一模态数据共享 相同的字典基元,即不为零的字典列,从而使标签信息编码在字典学习的过程中,学习到具 有区别性信息的字典; 3) 将字典、稀疏系数、关联关系矩阵、标签信息统一在如公式(1)的基于字典学习的多 模态检索算法框架中,不同模态的对应数据作为整体被表达和学习;
其中,Μ表示模态的个数,J表示类别即标签个数,表示第m模态的特征数据,D«表示 第m模态的字典,A«表示第m模态的稀疏系数,表示第m模态具有标签1的那些数据所对 应的稀疏系数,对任意kXn的矩巧
是第m模态关联关系矩阵,λη、β、 丫是可调参数,其中m=l,. . .,Μ,用来调节每一部分在表达式中所占的比例,為"'> 表示Dfmi 中的一个字典元素,即一列,k为列数; 4)循环更新稀疏系数、字典和关联关系矩阵,首先固定字典和关联关系矩阵更新稀疏 系数,然后利用得到的稀疏系数和固定关联关系矩阵更新字典,再利用更新的稀疏系数和 字典更新关联关系矩阵,如此循环,直到满足收敛条件,具体步骤如下: (1)首先固定字典和关联关系矩阵,更新稀疏系数如下:
3.根据权利要求2所述的一种可直接度量不同模态数据间相似性的跨模态检索方法, 其特征在于,所述的步骤3)包括: 1) 根据用户提交的已知m模态数据xfj和学习得到的已知模态字典Dim},初始化已知模 态数据的稀疏系数如下:
其中,λ为一个调节系数程度的参数; 2) 根据初始化的已知模态数据的稀疏系数af 4日学习得到的关联关系矩阵胖《,初始化 需求模态数据的稀疏系数如下:
3) 根据需求模态数据的稀疏系数仿和学习得到的需求模态字典〇ω,初始化需求模 态数据X;",如下:
(7) 4) 根据已知模态数据、学习得到信息和W上初始化,更新已知模态的稀疏系数和需求 模态的稀疏系数如下:
其中β、λη、λη是可调参数,与公式(1)对应; 5) 根据更新的需求模态的稀疏系数和需求模态字典,最终确定需求模态数据如下:
(9)。
4.根据权利要求1所述的可直接度量不同模态数据间相似性的跨模态检索方法,其特 征在于,所述的步骤4)包括: 1. W对应信息评价跨模态检索,着眼于已知模态数据和其直接对应的其他模态数据, W与已知模态数据对应的需求模态数据在结果列表中的位置评价结果的好坏,对于给定的 t %指标,如果与已知模态数据对应的需求模态数据排在t %前,则认为检索正确,否则认为 检索错误; 2. W区别性信息评价跨模态检索,着眼于已知模态数据和与其属于同一标签的需求模 态数据,W检索列表来衡量跨模态检索结果,与已知模态数据具有相同的标签作为相关,否 则为不相关,具体采用信息检索中的MAP作为运个指标的衡量,对一个请求的跨模态检索数 据,和捜索返回的列表,长度为R,MAP的定义基于ΑΡ,ΑΡ定义如下:
(10) 其中,L是捜索返回的列表中与检索数据相关的数据的个数;prec (r)表示1…r数据中 与检索数据相关的数据所占的比例,S(r) = l如果第r项数据与检索数据相关,否则S(r) = 〇,MP定义为所有检索数据AP值的平均值。
一种可直接度量不同模态数据间相似性的跨模态检索方法\n技术领域\n[0001] 本发明涉及跨模态检索,尤其涉及一种可直接度量不同模态数据间相似性的跨模 态检索方法。\n背景技术\n[0002] 如今,电子数据的类型越来越趋向于丰富多彩,各种类型的数据,如文本、图像、声 音、地图等等在互联网上广泛存在。同一语义内容往往既可以用一种模态的数据来描述,也 可以用其他模态的数据来描述。有时,针对某个语义的一种类型数据的描述,我们希望找到 其对应的其他类型数据的描述。比如,根据文本去检索和文本含义相近的图片,或者根据图 片搜索和图片有关的新闻报道等等。但是,现有的检索方法一般都是针对单模态数据的,如 文本检索文本,图像检索图像。也有一些多模态或多媒体检索方法,但是这些多模态检索方 法大都是在同模态之间做相似性度量,然后通过函数映射计算跨媒体数据之间的相似度, 很少有直接比较不同模态相似性的检索方法。在同模态间进行相似度度量的跨媒体检索方 法,其不足之处在于,并不能学习到跨模态数据间的关系,需要依赖数据库中预先指定的匹 配关系,而且对于多媒体数据之间松散的对应关系,查询效果不理想。因此,有必要提出可 直接进行不同模态相似性度量的跨媒体检索方法。直接进行不同模态数据相似性的比较, 其难点在于,不同模态数据的特征之间差别较大,且一般来说维数较高,存在"语义鸿沟"的 问题。\n[0003] 对于如何克服"语义鸿沟"问题,进行不同模态数据间的相似性比较和检索,有一 些跟传统方法不同的方法,这些方法一般分为两类:一类是将不同模态的数据看作随机变 量,通过寻找使这些随机变量关联性最大的隐空间对应的映射,对于检索数据,也将其投影 到隐空间,从而完成跨模态检索。另一类方法是假设这些数据中隐含一些主题,不同模态数 据的关联性由主题来模型。这两类方法都是直接进行不同模态间数据相似度比较的方法, 然而,对不同模态间语义层面松散关联的情况,"相关性最大"和"主题"这些语义层面的内 在理解的可靠程度就比不上不同模态数据的类别和关联关系这些已知确定信息。本发明将 字典学习引入到跨模态检索中,直接就显式的关联关系进行学习,并利用标签信息,可以很 好地对文本和图像间在语义层面松散对应的关系进行建模,从而提高对噪声的鲁棒性,提 高跨模态检索的准确率。\n发明内容\n[0004] 本发明的目的在于提供一种可直接度量不同模态数据间相似性的跨模态检索方 法,以便可以通过一种模态的数据直接检索到另外一种或几种模态的数据。\n[0005] 可直接度量不同模态数据间相似性的跨模态检索方包括如下步骤:\n[0006] 1)对数据库中各个模态数据进行特征提取和标签记录;\n[0007] 2)根据数据库中不同模态数据间的对应信息和标签信息,从重建的角度对不同模 态配对数据间的差异性和相似性进行表达,利用标签信息,构建跨模态检索整体模型并学 习模型参数;\n[0008] 3)对用户提交的已知模态数据,进行特征提取后利用跨媒体检索模型返回与之对 应的用户需求的其他模态数据;\n[0009] 4)利用跨模态数据的真实对应信息和标签信息,对跨媒体检索模型同时从对应信 息和区别性信息两方面来进行评价。\n[0010] 所述的步骤1)包括:\n[0011] 1)对数据库内所有的图像模态数据提取SIFT特征,并采用k-means方法进行聚类 形成视觉单词,然后对特征进行归一化,使代表每一个图像的特征矢量为单位矢量;\n[0012] 2)对数据库内所有的文本模态数据进行词性标注,去除非名词单词,保留文本中 的名词,用所有数据库中出现过的单词构成一个词库,对每个文本单独统计词库中的单词 出现的次数,采用单文本词汇频率进行矢量化,然后对特征矢量进行归一化,使代表每一个 文本的特征矢量为单位矢量;\n[0013] 3)对数据库中其他模态的数据,提取常用的行业标准特征,并对特征进行归一化, 使代表每一个数据的特征矢量为单位矢量。\n[0014] 4)对数据库中对应的不同模态数据,统计它们的标签信息,即记录它们来自那个 类别。\n[0015] 所述的步骤2)包括:\n[0016] 1)在跨媒体检索中引入字典学习的概念,形成基于字典学习的跨模态检索算法, 以字典和稀疏系数重建各个模态的数据,不同的字典编码不同模态间的差别性,不同模态 数据间的相似性由稀疏系数间的关联关系矩阵来建模,字典、稀疏系数和关联关系矩阵均 从各模态数据中学习得到;\n[0017] 2)利用标签信息参与跨模态检索,在字典学习中,属于同一标签的同一模态数据 共享相同的字典基元,即不为零的字典列,从而使标签信息编码在字典学习的过程中,学习 到具有区别性信息的字典;\n[0018] 3)将字典、稀疏系数、关联关系矩阵、标签信息统一在如表达式(1)的基于字典学 习的多模态检索算法框架中,不同模态的对应数据作为整体被表达和学习;\n[0020] 其中,M表示模态的个数,J表示类别即标签个数,X(m)表示第m模态的特征数据,D(m)表示第m模态的字典,Aw表示第m模态的稀疏系数\n表示第m模态具有标签1的那些数\n[0019] (1) 据所对应的稀疏系数,对任意k X η的矩阵A\n是第m模态关联关系矩 阵,Am(m=l,. . .,Μ)、β、γ是可调参数,用来调节每一部分在表达式中所占的比例,<~表 示D(m)中的一个字典元素,即一列,k为列数;\n[0021] 4)循环更新稀疏系数、字典和关联关系矩阵,首先固定字典和关联关系矩阵更新 稀疏系数,然后利用得到的稀疏系数和固定关联关系矩阵更新字典,再利用更新的稀疏系 数和字典更新关联关系矩阵,如此循环,直到满足收敛条件,具体步骤如下:\n[0022] (1)首先固定字典和关联关系矩阵,更新稀疏系数如下:\n[0023]\n[0024]\n[0025]\n[0026]\n[0027]\n[0028]所述的步骤3)包括:\n[0029] 1)根据用户提交的已知m模态数据Xf0和学习得到的已知模态字典D(m),初始化已 知模态数据的稀疏系数如下:\n[0030]\n[0031]其中,λ为一个调节系数程度的参数;\n[0032] 2)根据初始化的已知模态数据的稀疏系数和学习得到的关联关系矩阵Ww, 初始化需求模态数据的稀疏系数如下:\n[0033]\nC6)\n[0034] 3)根据需求模态数据的稀疏系数《;("]和学习得到的需求模态字典D (n),初始化需 求模态数据Xf0如下:\n[0035]\n(7)\n[0036] 4)根据已知模态数据、学习得到信息和以上初始化,更新已知模态的稀疏系数和 需求模态的稀疏系数如下:\n[0037]\n(68)\n[0038] 其中β、λη、λη是可调参数,与公式(1)对应。\n[0039] 5)根据更新的需求模态的稀疏系数和需求模态字典,最终确定需求模态数据如 下: _\n(9L\n[0041]所述的步骤4)包括:\n[0042] 1)以对应信息评价跨模态检索,着眼于已知模态数据和其直接对应的其他模态数 据,以与已知模态数据对应的需求模态数据在结果列表中的位置评价结果的好坏,对于给 定的t%指标,如果与已知模态数据对应的需求模态数据排在t%前,则认为检索正确,否则认 为检索错误;\n[0043] 2)以区别性信息评价跨模态检索,着眼于已知模态数据和与其属于同一标签的需 求模态数据,以检索列表来衡量跨模态检索结果,与已知模态数据具有相同的标签作为相 关,否则为不相关,具体采用信息检索中的MAP作为这个指标的衡量,对一个请求的跨模态 检索数据,和搜索返回的列表,长度为R,MAP的定义基于AP,AP定义如下:\n[0044]\n(10)\n[0045] 其中,L是搜索返回的列表中与检索数据相关的数据的个数。prec(r)表示1···γ数 据中与检索数据相关的数据所占的比例,S(r) = l如果第r项数据与检索数据相关,否则δ (r)=0,MAP定义为所有检索数据AP值的平均值。\n[0046] 本发明具有的有益的效果是:本发明与传统的跨媒体检索方法相比,可以直接比 较不同模态间相似性,而不是依靠同模态间相似性比较通过对应关系传播到不同模态数据 之间,直接比较不同模态间相似性的好处是,能够真正挖掘跨媒体数据间的隐含关联关,直 接实现用户的检索意图。其它可以直接度量不同模态相似性的跨媒体检索算法相比,本发 明提高了度量结果对噪音的抗干扰能力和对松散关联的跨媒体数据的表达能力,使得检索 效果更好,结果更加从语义上与检索数据相关。\n附图说明\n[0047] 图1是可直接度量不同模态数据间相似性的跨模态检索方法示意图;\n[0048] 图2是实施例数据库中对应图片和文本的示例;\n[0049] 图3是本发明的图片检索文本和文本检索图片的例子。每个查询列出了前四个返 回结果。上方是图片检索文本的例子,为了更好展示检索结果,这里用文本对应的真实图片 来代表检索得到的相似文本。下方是文本检索图片的例子。每个例子均对比了本发明(起名 SI iM2)和另外一种直接度量不同模态间相似性的跨媒体检索方法(GMA)的检索效果。\n具体实施方式\n[0050] 可直接度量不同模态数据间相似性的跨模态检索方包括如下步骤:\n[0051 ] 1)对数据库中各个模态数据进行特征提取和标签记录;\n[0052] 2)根据数据库中不同模态数据间的对应信息和标签信息,从重建的角度对不同模 态配对数据间的差异性和相似性进行表达,利用标签信息,构建跨模态检索整体模型并学 习模型参数;\n[0053] 3)对用户提交的已知模态数据,进行特征提取后利用跨媒体检索模型返回与之对 应的用户需求的其他模态数据;\n[0054] 4)利用跨模态数据的真实对应信息和标签信息,对跨媒体检索模型同时从对应信 息和区别性信息两方面来进行评价。\n[0055]所述的步骤1)包括:\n[0056] 1)对数据库内所有的图像模态数据提取SIFT特征,并采用k-means方法进行聚类 形成视觉单词,然后对特征进行归一化,使代表每一个图像的特征矢量为单位矢量;\n[0057] 2)对数据库内所有的文本模态数据进行词性标注,去除非名词单词,保留文本中 的名词,用所有数据库中出现过的单词构成一个词库,对每个文本单独统计词库中的单词 出现的次数,采用单文本词汇频率进行矢量化,然后对特征矢量进行归一化,使代表每一个 文本的特征矢量为单位矢量;\n[0058] 3)对数据库中其他模态的数据,提取常用的行业标准特征,并对特征进行归一化, 使代表每一个数据的特征矢量为单位矢量。\n[0059] 4)对数据库中对应的不同模态数据,统计它们的标签信息,即记录它们来自那个 类别。\n[0060]所述的步骤2)包括:\n[0061] 1)在跨媒体检索中引入字典学习的概念,形成基于字典学习的跨模态检索算法, 以字典和稀疏系数重建各个模态的数据,不同的字典编码不同模态间的差别性,不同模态 数据间的相似性由稀疏系数间的关联关系矩阵来建模,字典、稀疏系数和关联关系矩阵均 从各模态数据中学习得到;\n[0062] 2)利用标签信息参与跨模态检索,在字典学习中,属于同一标签的同一模态数据 共享相同的字典基元,即不为零的字典列,从而使标签信息编码在字典学习的过程中,学习 到具有区别性信息的字典;\n[0063] 3)将字典、稀疏系数、关联关系矩阵、标签信息统一在如表达式(1)的基于字典学 习的多模态检索算法框架中,不同模态的对应数据作为整体被表达和学习;\n[0065] 其中,M表示模态的个数,J表示类别即标签个数,X(m)表示第m模态的特征数据,D(m) 表示第m模态的字典,Aw表示第m模态的稀疏系数,表示第m模态具有标签1的那些数\n[0064] (1) 据所对应的稀疏系数,对任意kXn的矩阵A, f(m)是第m模态关联关系矩 阵,Am(m=l,. . .,Μ)、β、γ是可调参数,用来调节每一部分在表达式中所占的比例,^ί™5表 示Dw中的一个字典元素,即一列,k为列数;\n[0066] 4)循环更新稀疏系数、字典和关联关系矩阵,首先固定字典和关联关系矩阵更新 稀疏系数,然后利用得到的稀疏系数和固定关联关系矩阵更新字典,再利用更新的稀疏系 数和字典更新关联关系矩阵,如此循环,直到满足收敛条件,具体步骤如下:\n[0067] (1)首先固定字典和关联关系矩阵,更新稀疏系数如下:\n[0068]\n:^2丨\n[0069] (2)得到稀疏系数之后,按照下式更新各模态字典:\n[0070]\n0y\n[0071] (3)最后,更新关联关系矩阵如下:\n[0072]\n(4)r\n[0073] 所述的步骤3)包括:\n[0074] 1)根据用户提交的已知m模态数据 和学习得到的已知模态字典D(m),初始化已 知模态数据的稀疏系i\nω下:\n[0075]\n[0076]其中,λ为一个调节系数程度的参数;\n[0077] 2)根据初始化的已知模态数据的稀疏系数\n和学习得到的关联关系矩阵Ww, 初始化需求模态数据的稀疏系数\n如下:\n[0078]\n(6)\n[0079] 3)根据需求模态数据的稀疏系数和学习得到的需求模态字典D(n),初始化需 求模态数据如下:\n[0080]\n(7)\n[0081] 4)根据已知模态数据、学习得到信息和以上初始化,更新已知模态的稀疏系数和 需求模态的稀疏系数如下:\n[0082]\n(;8)\n[0083] 其中β、λη、λη是可调参数,与公式(1)对应。\n[0084] 5)根据更新的需求模态的稀疏系数和需求模态字典,最终确定需求模态数据如 下:\n[0085]\n[0086]所述的步骤4)包括:\n[0087] 1)以对应信息评价跨模态检索,着眼于已知模态数据和其直接对应的其他模态数 据,以与已知模态数据对应的需求模态数据在结果列表中的位置评价结果的好坏,对于给 定的t%指标,如果与已知模态数据对应的需求模态数据排在t%前,则认为检索正确,否则认 为检索错误;\n[0088] 2)以区别性信息评价跨模态检索,着眼于已知模态数据和与其属于同一标签的需\n求模态数据,以检索列表来衡量跨模态检索结果,与已知模态数据具有相同的标签作为相 关,否则为不相关,具体采用信息检索中的MAP作为这个指标的衡量,对一个请求的跨模态 检索数坦·知_安彳面的别妄-长度为R,MAP的定义基于AP,AP定义如下:\n[0089] ( 1〇)\n[0090]其中,L是搜索返回的列表中与检索数据相关的数据的个数。prec(r)表示1···γ数 据中与检索数据相关的数据所占的比例,S(r) = l如果第r项数据与检索数据相关,否则δ (r)=0,MAP定义为所有检索数据AP值的平均值。\n[0091] 实施例\n[0092] 假设我们分别有2173对已知对应关系的文本和图像数据,未知对应关系的文本数 据和图像数据各693个,图片和文本的示例如图2。首先对于数据库内所有的图像模态数据 提取SIFT特征,并采用k-means方法进行聚类形成视觉单词,然后对特征进行归一化,使代 表每一个图像的特征矢量为单位矢量。同时对数据库内所有的文本模态数据进行词性标 注,去除非名词单词,保留文本中的名词,用所有数据库中出现过的单词构成一个词库,对 每个文本单独统计词库中的单词出现的次数,采用单文本词汇频率进行矢量化,然后对特 征矢量进行归一化,使代表每一个文本的特征矢量为单位矢量。\n[0093]将配对的2173对数据(特征)表达成矩阵形式,规定M表示模态的个数,J表示类别 即标签个数,X(m)表示第m模态的特征数据,Dw表示第m模态的字典,Aw表示第m模态的稀疏 系数,表示第m模态具有标签1的那些数据所对应的稀疏系数,对任意k Xn的矩阵 w(m)是第m模态关联关系矩阵,Am(m=l,...,Μ)、β、γ是可调参数,用 来调节每一部分在表达式中所占的比例,^表示Dw中的一个字典元素,即一列,k为列 数,这里有两个模态,文本和图像,因此M=2,文本和图像分别作为X(1)和X(2)。\n[0094] 然后执行如下步骤:\n[0095] 1)首先固定字典和关联关系矩阵,更新稀疏系数如下:\n[0096]\n[0097] 2)得到稀疏系数之后,按照下式更新各模态字典:\n[0098]\n[0099] 3)最后,更新关联关系矩阵如下:\n[0100]\nC4)\n[0101 ]从而学习得到D= {D(1),D(2),…,D(M)},W= {ff(1),W(2),…,W(M)}。然后进入检索阶 段,在检索阶段,我们用未知对应关系的693*2个文本和图像中的任意一个做检索,都能返 回其对应的文本或图像。具体步骤如下:\n[0102] 假设用户提交已知图像或文本模态的检索数据 <,其中m=l或2。\n[0103] 1)根据用户提交的已知m模态数据和学习得到的已知模态字典D(m),初始化已 知模态数据的稀疏系I ,\n下:\n[0104]\n[0105] 其中,λ为一个调节系数程度的参数;\n[0106] 2)根据初始化的已知模态数据的稀疏系·\n和学习得到的关联关系矩阵Ww, 初始化需求模态数据的稀疏系I\n如下:\n[0107]\n(6)\n[0108] 3)根据需求模态数据的稀疏系数和学习得到的需求模态字典D(n),初始化需 求模态数据如下:\n[0109]\n(7)\n[0110] 4)根据已知模态数据、学习得到信息和以上初始化,更新已知模态的稀疏系数和 需求模态的稀疏系数如下:\n[0111]\n(8)\n[0112] 其中β、λη、λη是可调参数,与公式(1)对应。\n[0113] 5)根据更新的需求模态的稀疏系数和需求模态字典,最终确定需求模态数据如 下:\n[0114]\n⑶\n[0115] 6)根据需求模态数据,对需求模态候选返回列表排序,返回排序后结果。\n[0116] 图3表示了跨媒体检索的实际例子,包括图片检索文本的例子(顶部)和文本检索 图片的例子(底部),并且对比了本发明(起名SliM 2)和另外一种直接度量不同模态间相似 性的跨媒体检索方法(GM)的检索效果。对于图片检索文本的例子(顶部),为了更加直观展 示检索效果,我们采用文本对应的真实图片来代表检索得到的文本数据。可以看到,检索图 片来源于运动类别,两种方法检索出来的结果都来自运动类别,但是利用本发明检索的结 果将检索图片所对应的文本(文本用对应图片表示)排在了第一位,其余的检索结果文本 (用对应图片表示)也在语义和内容上与检索图片更加相关。对于文本检索图片的例子,文 本只截取了一段显示,该文本的内容主要是有关公园和小道的,属于地理类别,用本发明检 索出来的结果和检索文本属于同一类别,而且内容上非常相关。而用另外一种方法检索出 出来的结果排在第一位和第四位的图片来自历史类别,在内容上也没有本发明的方法与检 索文本相关性强。\n[0117] 从上面的例子可以看出,不同于传统方法,本发明可以直接进行不同模态间相似 性度量,从而实现跨模态检索,并且即使与同样可以直接比较不同模态相似度的方法相比, 本发明的方法具有更好的检索效果。
法律信息
- 2016-09-28
- 2014-02-05
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201310410553.X
申请日: 2013.09.10
- 2014-01-01
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2013-08-28
|
2013-05-27
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |