著录项信息
专利名称 | 面向知识图谱的跨媒体检索系统 |
申请号 | CN201510358374.5 | 申请日期 | 2015-06-26 |
法律状态 | 暂无 | 申报国家 | 中国 |
公开/公告日 | 2016-05-04 | 公开/公告号 | CN105550190A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F16/36 | IPC分类号 | G;0;6;F;1;6;/;3;6查看分类表>
|
申请人 | 许昌学院 | 申请人地址 | 江苏省南京市雨花台区凤展路32号A1北幢18层
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 江苏户传科技有限公司 | 当前权利人 | 江苏户传科技有限公司 |
发明人 | 杨月华;张铃丽;平源;王亚 |
代理机构 | 西安铭泽知识产权代理事务所(普通合伙) | 代理人 | 李振瑞 |
摘要
为了满足跨媒体语义描述和知识获取的需要,有效利用知识图谱中涵盖的跨媒体属性及各种关联,本发明提出建立跨媒体属性感知模型,对跨媒体数据中蕴含的自然属性和社会属性进行感知和关联分析,建立一种统一的跨媒体数据关联描述机制,对不同类型的关联关系进行统一量化表达;提出将知识图谱涵盖的不同形态的数据映射到同一个语义空间的方法,实现语义知识一致性表达;针对用户以自然语言、多媒体样例或者不同类型媒体数据组合表达的查询请求,提出借助知识图谱中涵盖的各种关联对用户查询进行语义分析来理解用户检索意图,从而检索出更加符合用户查询需求的相关结果的方法;提出引入知识图谱的跨媒体检索系统架构和实现方法。
1.面向知识图谱的跨媒体检索系统,其特征在于,该系统包括多个功能模块,该些功能模块分别用于实现以下功能:
跨媒体属性感知和关联分析,包括建立跨媒体属性感知模型,对跨媒体数据中蕴含的自然属性和社会属性进行感知和关联分析,建立一种统一的跨媒体数据关联描述机制,对不同类型的关联关系进行统一量化表达;
跨媒体知识的一致性表达,包括将知识图谱涵盖的不同形态的数据映射到同一个语义标签空间,实现语义知识的一致性表达;
基于知识图谱的用户查询语义分析;
面向知识图谱的跨媒体检索系统架构和实现;
所述系统提出当用户以自然语言、多媒体样例或者不同类型媒体数据组合表达查询请求时结合知识图谱涵盖的关联对其进行语义分析和推理的方法,对于用户输入的查询内容,分别对文本和多媒体查询的内容进行各自以及联合分析,从语义层面来解析用户查询意图,因此首先从互联网上采集足够的跨媒体信息并为不同媒体类型的数据分别建立语义模型,实现跨媒体数据在同一语义空间上的特征描述,然后综合图像数据和文本数据的语义分布分析和识别用户查询的语义,并结合知识图谱进行进一步的关联语义挖掘,基于知识图谱涵盖的数据语义关联、时序关联和结构关联,获得与用户查询内容相关的各种维度的情境数据,并通过推理来发现不同情境下的特征,从而得到更加完善的查询语义。
2.根据权利要求1所述的系统,其特征在于,建立跨媒体属性感知模型并对其中涵盖的关联关系进行分析,提出一种统一的跨媒体数据关联描述机制,通过文本解析、实体抽取、元数据分析、语义标注和用户行为分析技术获得跨媒体数据的自然属性和社会属性,然后对跨媒体数据中自然属性和社会属性之间的复杂关系进行关联建模,在建模过程中考虑跨媒体数据间存在的同一模态的内容关联、不同模态的语义关联、时序关联、结构关联多种关联,根据多媒体对象所在网页之间的链接,基于概率图模型对跨媒体内容和链接进行概率化的建模分析,从而对不同类型的关联关系进行统一量化表达。
3.根据权利要求1所述的系统,其特征在于,为了满足跨媒体语义描述和知识获取的需要,提出将不同形态的数据映射到同一个语义标签空间的方法,实现语义一致性表达,当文本、图像异构互补的媒体形态共同表达一种语义时,通过学习某种映射关系,将这些异构模态信息映射到一个语义标签空间,从而在一个表达框架下直接对异构数据进行相似性度量,并根据语义相似度、语义覆盖度和语义区分度建立评价函数,对语义标签的可选择性进行评价,利用语义标签信息分别为每一个形态训练分类器,并将分类的结果作为共享特征,使得不同形态的数据也可以映射到同一个语义标签空间,从而实现语义一致性表达。
4.根据权利要求1所述的系统,其特征在于,系统除了具备用户查询分析、索引、检索和排序基本组成部分,还要创建具有一定规模的知识图谱知识库并集成到系统中,在用户查询分析部分,支持用户以自然语言、跨媒体样例、不同媒体类型数据形式输入的查询内容,在进行查询语义分析时,除了要对用户输入的各种媒体类型数据分别进行语义分析,还要结合知识图谱对其进行联合语义分析以及进一步的推理,以便根据知识图谱上的时间、地点、实体及其社会关系情境知识更好地理解用户查询意图。
面向知识图谱的跨媒体检索系统\n技术领域\n[0001] 本发明属于信息检索技术范畴,具体为面向知识图谱的跨媒体检索系统。在跨媒体检索中引入知识图谱有助于获得各种维度的情境数据,甚至通过进一步推理来发现不同情境下的特征,从而能够更好地理解用户查询内容的语义,返回更加满足用户需求的检索结果。\n背景技术\n[0002] 当前,全球网络的发展和普及已经达到空前的规模,人们已经习惯于在互联网上查找各种信息,搜索引擎已成为互联网的中心。国内各个互联网巨头正不遗余力地完善自己的搜索引擎,国家“核高基”科技重大专项也将“新一代搜索引擎与浏览器”列为“十二五”期间支持的重要发展方向。但是互联网上的信息正在呈指数级增长,而且类型多样,各种媒体形式的信息之间存在错综复杂的关联,这些交叉关联使得互联网数据呈现出了跨媒体特性,而这种跨媒体特性对互联网信息分析与检索提出了更高的要求。由于将知识图谱引入跨媒体检索系统后,有助于获得各种维度的情境数据,更好地支持用户以自然语言、多媒体样例或者不同类型媒体数据组合来表达检索意图,还可以通过进一步推理来发现不同情境下的特征,实现更加准确的用户查询语义分析和检索。因此,本发明从知识图谱的角度出发给出了跨媒体检索系统的实现方案。\n[0003] 知识图谱是谷歌在2010年收购了开放式数据库公司Metaweb后发展而来的。\nMetaweb当时主要专注于将不同文字表述与同一个实体连接起来,并探索这些实体的属性(例如明星的年龄)以及彼此之间的联系,最终提供一种新的搜索形式。虽然不能完全替代关键词搜索,但Metaweb的索引、搜索方法在处理自然语言的查询时更高效。同样,在跨媒体检索中,借助知识图谱,也可以更好地理解用户的查询请求并总结出与查询需求语义相关的内容,为用户找出更加准确和更有深度的相关信息。此外,知识图谱还会帮助用户了解事物之间的关系。当用户以自然语言、多媒体样例或者不同类型媒体数据组合表达的查询请求时,这样的一个查询请求可能会代表多重含义,知识图谱能够理解其中的差别,并可以将搜索结果范围缩小到用户最想要的那种含义。再者,由于知识图谱构建了一个与搜索结果相关的完整的知识体系,融合了很多学科,把与用户查询语义相关的知识体系系统化地展示给用户,所以在检索时用户可能会了解到某个新的事实或新的联系,促使其进行一系列全新的搜索查询,让搜索更有深度和广度。因此,将知识图谱引入跨媒体检索中对于改进检索性能具有重要作用。\n[0004] 因此,本发明以面向知识图谱的跨媒体检索关键技术为研究对象,提出了跨媒体属性的感知模型和多种关联统一量化表达、跨媒体知识的一致性表达和基于知识图谱的用户查询语义分析方法以及面向知识图谱的跨媒体检索系统的实现方案。在信息检索领域,从当前国内外发展情况来看,面向知识图谱和跨媒体已经成为必然趋势,因此本发明具有非常大的实际应用价值以及广阔的应用前景。\n发明内容\n[0005] 本发明的目的在于提供一个跨媒体信息检索工具,在跨媒体检索中引入知识图谱,基于知识图谱上涵盖的跨媒体语义关联和知识进行语义分析和推理,实现跨媒体检索。\n具体来说,本发明内容包括以下几点。\n[0006] (1)针对互联网上错综复杂的跨媒体数据,建立跨媒体属性感知模型并对其中涵盖的关联关系进行分析,提出一种统一的跨媒体数据关联描述机制。通过文本解析、实体抽取、元数据分析、语义标注和用户行为分析等技术获得跨媒体数据的自然属性和社会属性,然后对跨媒体数据中自然属性和社会属性之间的复杂关系进行关联建模,在建模过程中考虑跨媒体数据间存在的内容关联(同一模态)、语义关联(不同模态)、时序关联、结构关联等多种关联,根据多媒体对象所在网页之间的链接,基于概率图模型对跨媒体内容和链接进行概率化的建模分析,从而对不同类型的关联关系进行统一量化表达。\n[0007] (2)为了满足跨媒体语义描述和知识获取的需要,提出将不同形态的数据映射到同一个语义标签空间的方法,实现语义一致性表达。当文本、图像等异构互补的媒体形态共同表达一种语义时,通过学习某种映射关系,将这些异构模态信息映射到一个语义标签空间,从而在一个表达框架下直接对异构数据进行相似性度量,并根据语义相似度、语义覆盖度和语义区分度建立评价函数,对语义标签的可选择性进行评价,利用语义标签信息分别为每一个形态训练分类器,并将分类的结果作为共享特征,使得不同形态的数据也可以映射到同一个语义标签空间,从而实现语义一致性表达。\n[0008] (3)提出当用户以自然语言、多媒体样例或者不同类型媒体数据组合表达查询请求时结合知识图谱涵盖的关联对其进行语义分析和推理的方法。对于用户输入的查询内容,分别对文本和多媒体查询的内容进行各自以及联合分析,从语义层面来解析用户查询意图。因此首先从互联网上采集足够的跨媒体信息并为不同媒体类型的数据分别建立语义模型,实现跨媒体数据在同一语义空间上的特征描述。然后综合图像数据和文本数据的语义分布分析和识别用户查询的语义,并结合知识图谱进行进一步的关联语义挖掘。基于知识图谱涵盖的数据语义关联、时序关联和结构关联等,获得与用户查询内容相关的各种维度的情境数据,并通过推理来发现不同情境下的特征,从而得到更加完善的查询语义。\n[0009] (4)提出引入知识图谱的跨媒体检索系统架构和实现方法。系统除了具备用户查询分析、索引、检索和排序等基本组成部分,还要创建具有一定规模的知识图谱知识库并集成到系统中。在用户查询分析部分,支持用户以自然语言、跨媒体样例、不同媒体类型数据等形式输入的查询内容。在进行查询语义分析时,除了要对用户输入的各种媒体类型数据分别进行语义分析,还要结合知识图谱对其进行联合语义分析以及进一步的推理,以便根据知识图谱上的时间、地点、实体及其社会关系等情境知识更好地理解用户查询意图。在跨媒体哈希索引和排序部分主要是调用已有的一些算法。\n附图说明\n[0010] 图1为跨媒体属性感知和关联分析;\n[0011] 图2为基于知识图谱的用户查询语义分析;\n[0012] 图3为面向知识图谱的跨媒体检索系统架构。\n具体实施方式\n[0013] 为使本发明的目的、技术方案及优点更加清楚明白,以下结合说明书附图对本发明做进一步的详细说明。\n[0014] 1.跨媒体属性感知和关联分析\n[0015] 当前知识传播的方式越来越具有跨媒体的特性,同一实体的相关知识和信息往往来自多个渠道,以多种媒体形态协同表达,并且蕴含着多种自然属性和社会属性,为了利用跨媒体数据中蕴含的关联知识并将其用于跨媒体检索中,在构建知识图谱的过程中,除了要考虑实体间的语义关系,还要考虑对实体的跨媒体属性的感知,建立跨媒体属性感知模型并对其进行关联分析。为了对不同类型的关联关系进行统一量化表达,并对潜在的关联进行有效预测,使不同的关联关系之间能相互利用,建立一种统一的跨媒体数据关联描述机制。\n[0016] 针对来自多个渠道(包含微博、微信、论坛、新闻网站、专业网站等),以多种媒体形态(文本、声音、图像、视频)协同表达,并且蕴含着多种自然属性(时间、地点、人物、表观信息等)和社会属性(如热度、评价和偏好等)的实体相关信息,基于和文本伴随信息之间的互补信息来提取其他媒体类型数据的高层语义,然后通过文本解析、实体抽取、元数据分析、语义标注和用户行为分析等技术获得跨媒体数据的自然属性和社会属性,再通过一组支持向量机分类器对新数据进行分类,从而从有噪声的网络图像中集中自动地提取和识别同类别的目标;或者通过分析网络用户对跨媒体数据的转发行为对现实世界用户的关注度等进行建模,通过分析微博、微信、社交网络等数据内容及用户转发行为,构建转发树模型,并利用频繁子树来发现用户行为的重复性和倾向性规律,从而对群体关注度进行更准确的跟踪和预测。接下来对跨媒体数据中自然属性和社会属性之间的复杂关系进行关联建模,在建模过程中考虑跨媒体数据间存在的内容关联(同一模态)、语义关联(不同模态)、时序关联、结构关联等多种关联,根据多媒体对象所在网页之间的链接,基于概率图模型对跨媒体内容和链接进行概率化的建模分析,从而对不同类型的关联关系进行统一量化表达,并进一步实现跨媒体数据的关联预测,如图1所示。\n[0017] 2.跨媒体知识的一致性表达\n[0018] 由于已有的知识表示方式和知识库资源基本上还局限在单一模态的状态,已无法满足跨媒体语义描述和知识获取的需要,因此在构建的知识图谱中涵盖跨媒体属性知识后,要将其用于跨媒体检索中,在分析单一模态数据语义知识表达规律的基础上,提出了将不同形态的数据映射到同一个语义标签空间的方法,从而实现语义一致性表达。为了从单一模态扩展到跨媒体知识表示层面,提出了对知识图谱中各种媒体类型的内容进行计算和度量的方法,从理论上将多种媒体数据的结构信息统一映射到一定的空间以便进行结构分析、融合以及推理等。\n[0019] 在获取了足够的跨媒体属性知识及关联关系后,为了将其用于跨媒体检索中,在不同的数据粒度、不同知识层次上建立跨媒体知识一致性表示机制。当文本、图像等异构互补的媒体形态共同表达一种语义时,通过学习某种映射关系,将这些异构模态信息映射到一个共享子空间,就可以在一个表达框架下直接对异构数据进行相似性度量。对于在内容和语义上具有相关性的跨媒体数据,采用概率生成模型将不同媒体类型的数据转换到统一的隐变量空间进行描述,以跨媒体数据在各个隐变量上的分布作为其语义标签,并根据语义相似度、语义覆盖度和语义区分度建立评价函数,对语义标签的可选择性进行评价,并建立语义组。利用语义组的语义标签信息,将不同多媒体文档中的同模态数据分别提取出来,利用组的语义标签分别为每一个形态训练分类器,并将分类的结果作为共享特征,使得不同形态的数据也可以映射到同一个语义标签空间,从而实现语义一致性表达。\n[0020] 语义标签选择的关键是计算它与跨媒体内容的语义相关性,即语义标签和语义模型之间的匹配,为了能够直接将语义标签与语义模型进行比较,将语义标签以语义分布的方式表示,使用KL距离计算语义标签和语义模型之间的语义相似性。为了获得语义标签l的语义分布{p(w|l)},通过跨媒体数据集D来近似估计{p(w|l,D)}。这样就可以使用KL距离计算语义标签{p(w|l)}和语义模型{p(w|θ)}之间的语义相似性:\n[0021]\n[0022] 为了保证语义标签对跨媒体数据的语义内容有较高的覆盖度,选择的新语义词能够覆盖其它语义部分,而不是已有语义词已经涵盖的内容,采用最大边缘相关方法,通过最大化最大边缘相关性取得最大相关性和差异性语义词:\n[0023]\n[0024]\n[0025] 其中,S是已经选择的语义词。\n[0026] 此外,当对多个语义内容进行标注时,为了保证一个语义词不会和多个语义内容具有较高的相关度,还要考虑不同语义内容间的区分,即语义区分度,在这种情况下,需要采用考虑区分度的语义相似性计算方法:\n[0027] S’(l,θi)=S(l,θi)-αS(l,θ-i)(4)\n[0028] S(l,θ-i)=-d(θ-i‖l)(5)其中,θ-1表示除语义特征θ1之外的其他k-1个语义特征,即θ1,...i-1i+1,...k,k为语义特征数。通过S’(l,θi)计算跨语义特征的语义相似度并进行排序,从而可以为多个语义内容生成语义相关且具有一定覆盖度和区分度的语义词。\n[0029] 3.基于知识图谱的用户查询语义分析\n[0030] 对于用户输入的查询内容,需要分别对文本和多媒体查询的内容进行各自以及联合分析,从语义层面来解析用户查询意图。因此,首先从互联网上采集足够的跨媒体信息并为不同媒体类型的数据分别建立语义模型,如图2所示:以文本词描述的文本语义模型和以视觉词描述的视觉语义模型;然后利用这两个模型将待分析文档中的文本数据和图像数据都转换到相同的语义空间,并以语义概率分布的方式进行描述。之后通过语义学习实现不同媒体类型数据的语义映射。为了在不同媒体类型的数据间建立关联,挖掘关联性异构媒体数据之间存在的共享子空间,对于具有语义相关性的跨媒体数据,如图像、视频等与文本语义相关的视觉数据,采用文本数据进行视觉语义学习,以视觉词的形式描述文本语义,建立文本语义和视觉语义之间的映射关系,从而实现跨媒体数据在同一语义空间上的特征描述。\n[0031] 在获得了跨媒体数据的语义特征描述后,综合图像数据和文本数据的语义分布分析和识别用户查询的语义,并结合知识图谱进行进一步的关联语义挖掘。基于知识图谱涵盖的数据语义关联、时序关联和结构关联等,获得与用户查询内容相关的各种维度的情境数据,如时间、地点、实体及其社会关系等,并通过推理来发现不同情境下的特征,从而得到更加完善的查询语义。由于推理涉及的是跨媒体数据,所以推理前先基于图像标注、视频中活动对象动作识别等技术实现跨媒体到文本模式的转换并进行形式化表示,然后基于文本的推理技术实现推理。在转换过程中需要在语义层处理跨媒体数据,可以基于所建立的跨媒体语义模型来实现。\n[0032] 4.面向知识图谱的跨媒体检索系统\n[0033] 为了实现一个面向知识图谱的跨媒体检索系统,首先提出引入知识图谱的跨媒体检索系统架构,如图3所示。系统除了具备用户查询分析、索引、检索、排序等基本组成部分外,加入了跨媒体属性感知和关联分析以及一致性表达几个部分。首先从互联网上采集足够的多媒体数据,基于跨媒体属性感知模型分别获取跨媒体数据的自然属性和社会属性,然后对其中蕴含的实体对象关联、各种媒体类型数据的语义关联、时序关联、结构关联等进行关联分析和描述。之后在此基础上构建形成达到一定规模的知识图谱,为了利用知识图谱中涵盖的跨媒体知识,基于所提出的一致性表达框架对其进行表示。\n[0034] 在用户查询分析部分,支持用户以自然语言、跨媒体样例、不同媒体类型数据等形式输入的查询内容。在进行查询语义分析时,除了要对用户输入的各种媒体类型数据分别进行语义分析,还要结合知识图谱对其进行联合语义分析以及进一步的推理,以便根据知识图谱上的时间、地点、实体及其社会关系等情境知识更好地理解用户查询意图。在跨媒体哈希索引和排序部分主要是调用已有的一些算法。
法律信息
- 2021-01-08
专利权的转移
登记生效日: 2020.12.25
专利权人由许昌学院变更为江苏户传科技有限公司
地址由461000 河南省许昌市八一路88号变更为210012 江苏省南京市雨花台区凤展路32号A1北幢18层
- 2019-03-29
- 2016-06-22
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201510358374.5
申请日: 2015.06.26
- 2016-05-04
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2014-09-10
|
2014-06-10
| | |
2
| |
2014-02-19
|
2013-11-13
| | |
3
| |
2014-01-01
|
2013-09-10
| | |
4
| |
2014-11-26
|
2014-07-24
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |