著录项信息
专利名称 | 一种基于感性认知的图像检索结果排序方法 |
申请号 | CN201010186515.7 | 申请日期 | 2010-05-31 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2010-10-06 | 公开/公告号 | CN101853299A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0;;;G;0;6;Q;3;0;/;0;0查看分类表>
|
申请人 | 杭州淘淘搜科技有限公司 | 申请人地址 | 浙江省杭州市文二路391号西湖国际科技大厦B-3-611
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 杭州淘淘搜科技有限公司 | 当前权利人 | 杭州淘淘搜科技有限公司 |
发明人 | 王海洋;黄琦;徐舒畅;郑聃;林建聪 |
代理机构 | 杭州求是专利事务所有限公司 | 代理人 | 暂无 |
摘要
本发明公开了一种基于感性认知的图像检索结果排序方法,该方法主要基于图像的客观特征和主观感性认知对图像结果进行排序。在对图像理解的基础上,提取图像特征,获取相似度,并基于用户体验对显示方式进行布局。本发明在文本无法准确表达的情况下,用户可在该平台上更好地展示自己的购物需求,减少用户对商品的查找时间,更加有效地促成网络商品交易。同时,本发明将促进新型电子购物平台的发展,使中国电子商务网络平台更加多元化。
1.一种基于感性认知的图像检索结果排序方法,其特征在于,包括如下步骤:
(1)构建图像特征库;
1.1)在构建图像特征库前,预先获得入库图像的掩膜区域;
1.2)获得图像的掩膜区域后,得到图像的颜色特征;
1.3)获得图像的掩膜区域后,得到图像的形状特征;
1.4)获得图像的掩膜区域后,对于T恤,得到图案特征;
1.5)构建检索数据库,整个数据库由原始图像和特征文件两部分构成;
(2)以B/S架构在客户端建立导购平台,用户可选择库中图像或其它图像作为输入进行检索,检索结果返回客户端;
(3)基于感性认知的相似性显示检索结果;
3.1)根据图像的颜色、形状、图案特征的综合结果进行排序;
3.2)显示页面中,可通过按钮进行选择分别根据颜色、形状、图案特征的相似度进行排序;
3.3)显示页面中,每张结果图同时含有商品价格、商家链接、比价链接等多种属性;
其中,所述步骤(1.1)中,所述图像掩膜区域的获取方法是:采用目标自动定位方法,粗略估算图像中目标物体所在的长方形区域;对于自动定位不准确的图像,采用人工画框确定长方形区域;确定长方形区域后,利用图像分割算法获得目标的非规则性准确区域,即掩膜区域;
所述步骤(1.2)中,图像的颜色特征获取方法为:首先将红、绿、蓝三原色进行量化,形成有限个格子;根据量化后的颜色分布,得到颜色直方图;取前L位颜色为初始聚类中心,利用K-均值算法进行颜色聚类;将最终聚类后的颜色从红、绿、蓝三原色转换到色调-饱和度-亮度颜色空间;色调-饱和度-亮度颜色空间被量化为M级,分别是色调值M1级,饱和度值和亮度值各M2级;最终将转换后的色调-饱和度-亮度颜色空间颜色分类以及该类颜色占的比重保存到特征文件;
所述步骤(1.3)中,图像的形状特征获取方法为:在掩膜区域利用N线法,衡量每条线和掩膜区域宽度的比例,以N条线的比例值数组作为形状特征;而对于箱包的图像,形状特征还包括长宽比;
所述步骤(1.4)中,图像的图案特征获取方法为:首先采用目标自动定位方法,粗略估算掩膜区域中图案所在的长方形区域;对于自动定位不准确的图像,采用人工画框确定长方形区域;确定长方形区域后,获取图案区域的缩放、旋转不变的特征变换SIFT特征作为图案特征;
所述步骤(1.5)中,整个数据库中的图像数据来源于网络,每张图像在入库前,需要单独获取各种特征,并存入特征文件;采用分段方式存储图像特征,每次读入一个分段的所有图像的特征,加快后期的检索速度;
所述步骤(2)中,检索步骤是:输入样图,首先获取样图的掩膜区域,然后在掩膜区域获取样图的特征;将样图特征与数据库中图像的特征进行比较,返回前N张结果图;样图可以是库中的,也可以是用户自己上传的;
所述步骤(3)中,基于样图检索得到的结果图列表中,按照感知相似性进行结果图的展示;结果图中同时含有商品价格、相应网络商家链接;单击结果图,将可以该张结果图作为输入图进行新一轮的检索。
一种基于感性认知的图像检索结果排序方法\n技术领域\n[0001] 本发明涉及图像搜索技术领域,尤其涉及一种基于感性认知的图像检索结果排序方法。\n背景技术\n[0002] 目前市场上存在几个典型的搜索引擎,包括百度、Google、搜狐的搜狗和微软的Bing。上述搜索引擎面向文本,适合各种用户,且已经基本占领了文本搜索的市场。\n[0003] 但是文本搜索引擎也具有某些不足和缺陷。当人们要搜索某些无法确切描述的内容时,或者需要搜素的内容含有主观概念,又或者需要搜索和已知格式的数据(音频、视频、图像、3D网格等各种多媒体数据)很类似的结果时,文本搜索就显示了它的不足。为此,市场上出现了一些基于图像的搜索引擎。\n[0004] 基于图像的搜索引擎需要输入样例图,然后从数据库中查找和样例图的图像特征相似的结果。比如,www.tinyeye.com,www.like.com就是基于图像检索(记为CBIR:\nContent Based Image Retrieval)的例子。大部分基于图像的搜索引擎以图像内容理解和模式识别等技术为基础,且面向各种各种的图像。\n[0005] 现有的CBIR具有以下不足之处:对于服饰类的CBIR系统,现有的应用仅仅依靠图像的视觉特征进行检索,而没有考虑人们在现实中的购买环境,缺乏真实体验感。另外,现有系统中的图像数据都相对比较统一,数据量也不多。\n[0006] 随着互联网上各类数据的爆炸式增长,人们寻找目标产品所需的时间越来越多。\n另外,虽然存在各种功能强大的文本搜索引擎,但对于服饰类产品,用户常常无法利用文字准确描述需求。\n发明内容\n[0007] 本发明的目的在于针对现有技术的不足,提供一种基于感性认知的图像检索结果排序方法。本发明利用样图描述用户的需求,在基于图像内容的理解上,帮助用户快速寻找到目标产品(主要是服饰类产品)。\n[0008] 本发明主要基于图像的客观特征和主观感性认知对图像结果进行排序。在对图像理解的基础上,提取图像特征,取得相似度,并基于用户体验对显示方式进行布局。这种方式不但能及时找到用户的目标产品,而且能给用户极大的视觉冲击,积极引导用户进入购物环节。这是文本检索无法实现的,是一种新型的电子导购平台。\n[0009] 为了建立这样一种方便直观的智能导购平台,本发明采取以下步骤作为技术方案。\n[0010] 1)首先,建立含有大量图像的原始数据库。\n[0011] 为了建立图像数据库,需要利用网络爬虫去各种含有服饰类图像的网站抓取原始数据。\n[0012] 2)针对库中的每张图像,获取图像中目标所在的精确区域,记为MASK区域(掩膜区域:记为MASK)。\n[0013] 为了获取MASK区域,需要开发一种半自动的目标定位子系统,用于确定服饰在图像中的大概位置,并在此基础上利用图像分割技术获得准确的区域。\n[0014] 3)根据每张图像的MASK区域获取各种图像特征。\n[0015] 针对服饰类图像,能用于特征表述的参数有颜色、形状、纹理和图案等。不同种类的衣服可能需要获取不同的特征。比如T恤不需要形状特征,但需要图案特征。\n[0016] 4)建立含有图像和特征数据的综合数据库。\n[0017] 整个数据库由原始图像数据库和特征数据库组成。为了方便存储和访问,需要将图像数据和特征数据分段存储。库中每新增一张图像,都需要提取其特征,并将其存入特征数据库。每删除一张图像,需要同时删除原始图像和其特征数据。\n[0018] 5)搭建B/S结构平台,向用户提供基于样例图的检索服务。\n[0019] 综合数据库放在服务器,客户端建立一个入口平台,方便用户上传图像,或者从库中选择图像作为样例图进行检索。服务器端根据图像的颜色、形状、局部图案等特征,按照相似性返回数据库中与样例图比较接近的系列图像,最终检索结果显示在客户端。\n[0020] 6)检索结果图中,根据感知相似度对结果进行排序。\n[0021] 基于样图检索得到的结果图列表中,按照布局方式,以客观特征(颜色特征、形状或图案特征等)和主观特征(产品风格等)的相似性进行结果图的展示。结果图中同时含有商品价格、相应网络商家链接等信息。单击结果图,将可以该张结果图作为输入图进行新一轮的检索。\n[0022] 本发明的有益效果是:作为一种新型的电子购物引导平台,在文本无法准确表达的情况下,结合主观特征和客观特征的图像相似性可以更快、更准确地找到目标商品。用户可在该平台上更好地展示自己的购物需求,减少商品的查找时间,更加高效地促成网络商品交易。同时,本发明将促进新型电子购物平台的发展,使中国电子商务网络平台更加多元化。\n附图说明\n[0023] 图1是系统框架图;\n[0024] 图2是颜色特征提取流程图;\n[0025] 图3是形状特征提取示意图;\n[0026] 图4是B/S架构示意图;\n[0027] 图5是局部匹配模块流程图;\n[0028] 图6是客户端页面的搜索结果显示效果示意图。\n具体实施方式\n[0029] 下面以服饰类图像的检索和显示为例,结合附图对本发明做进一步详细的说明。\n本发明涉及到的操作可综合为下表所示,而整个系统的框架及流程见图1所示。\n[0030] 本发明的基于感性认知的图像检索结果排序方法,包括以下步骤:\n[0031] 1.1)在构建图像特征库前,采用目标自动定位方法,获取入库图像的掩膜区域。\n[0032] 由图1可见,目标提取模块包括网络数据抓取、初步过滤子模块、目标定位子模块、图像掩码提取子模块等四个步骤。网络数据抓取模块利用网络爬虫机器人,从互联网上搜集相关的服饰图像。但是爬虫机器人只根据图像格式的判断进行抓取,因此并不是所有下载到的图像都是所需的服饰类图像。初步过滤子模块的功能就是删除一些明显的非服饰类图像,过滤策略包括:格式过滤,即只下载特定格式的图像。尺寸过滤,即根据图像大小、长宽比等数据过滤一些无用的图像。图像属性过滤,去除所有非彩色的图像。由于网络上各类图像没有标准和规范,非常不统一。因此很多图像中,没有固定的背景,一张图像中可能含有好几件衣服或者服饰类物品,图像中可能含有模特等等。目标定位子模块主要用来确定衣服等目标区域所在的大概位置。\n[0033] 在目标定位子模块中,需要对原始图像数据进行分类,对不同的分类采取不同的方法进行定位。目前的分类有:\n[0034] ●衣服平铺类:基于平铺时拍摄者会将衣服放在与衣服颜色有区分度的背景下的假设,因此采用大津法(OSTU算法)直接进行二值化处理,然后分析二值图中的连通区域信息,最终确定目标的合理位置。该类的定位效果比较理想,且能直接获得掩膜MASK数据,省略了后面的掩膜区域获取子模块的处理。\n[0035] ●衣服模特类:很多衣服图像中都有模特,可采用人脸检测的算法,获得衣服的大致区域。\n[0036] ●衣服分格类:首先检测衣服的分格区间,然后再每个区间分别采用不同的方法。\n[0037] ●其它分类:除了上述分类的其它分类。\n[0038] 目标定位结果只是一个长方形的框,框内除了目标物以外,还有可能存在其它物体或者背景。因此,需要得到目标物的精确区域,这就需要掩码提取。图像掩码提取子模块是在目标定位子模块的基础上,获取图像中目标的精确位置。目前采用基于最小能量的收敛算法。\n[0039] 1.2)获得图像的掩膜区域后,提取图像的颜色特征。\n[0040] 颜色特征的提取方法如图2所示。步骤如下:\n[0041] ●颜色量化:将每个通道8位共256级量化为16级,红、绿、蓝三原色RGB三个通道共4096级,即4096个格子Bin。\n[0042] ●颜色聚类:根据量化后的颜色分布,获取颜色直方图。取前N(目前N=8)位颜色为初始聚类中心,利用K-Means进行颜色聚类。\n[0043] 特征保存:将最终聚类后的颜色从RGB转换到色调-饱和度-亮度颜色空间(HSV空间)。HSV空间被量化为36000级,分别是H值360级,S值和V值各10级。将转换后的HSV颜色分类以及该类颜色占的比重保存到特征文件。\n[0044] 1.3)得到图像的掩膜区域后,获取图像的形状特征。\n[0045] 形状特征的获取主要采用“N线法”,如图3所示。在掩膜区域利用N线法,衡量每条线和MASK宽度的比例,以N条线的比例值数组作为形状特征。针对不同的服饰类别,还需要获取掩膜区域的长宽比作为一个简单的形状特征。\n[0046] 1.4)获得图像的掩膜区域后,对于T恤等特殊类别服装,获取图案等特征。\n[0047] 图案特征只在特殊类目的图像中获取,其方法为:首先采用图案区域自动定位方法,粗略估算MASK区域中T恤上的图案所在的长方形(RECT)区域。对于自动定位不准确的图像,采用人工画框确定RECT区域。确定衣服上的图案RECT区域后,获取图案区域的SIFT特征作为图案特征。\n[0048] 1.5)构建检索数据库,整个数据库由原始图像和特征文件两部分组成。\n[0049] 构建检索数据库对应的是“ADD”操作,这个过程可称之为“入库”。为了使整个“入库”过程自动化,需要建立一整套流程机制和处理、审核规范。如图1所示,不同类目的服饰放在不同的文件目录中,原始图像根据规定的组织结构放在特定路径下,构成整个原始图像库。而每入库一张图像,就获取其各种视觉特征,并在特征文件中增加响应记录。不同的特征记录在不同的特征文件中。由于某些特征较复杂,可能还需要多个文件分别存放特征数据。\n[0050] 2)以B/S架构在建立导购平台。\n[0051] 导购平台采用B/S架构,即互联网终端用户可通过终端浏览器访问导购平台。服务端同时需要多台服务器,包括应用服务器、搜索引擎服务器、数据库服务器以及文件服务器,整个架构如图4所示。其中,应用服务器提供对外网页接口,供用户访问,并收集用户的请求。当用户发送搜索请求后,应用服务器将把请求转交给图像引擎服务器,由后者获取相似度信息,并返回检索结果。在整个检索请求的处理过程中,还需要图像服务器和数据库服务器的配合,共同将检索结果图像序列返回到应用服务器,并最终显示在客户端浏览器。\n[0052] 上述架构可支持大用户量的访问,各服务器节点都可进行扩展,采用集群方式,如应用服务器、图像引擎服务器、文件服务器、数据库服务器,都可部署多台,统一向外提供服务,可支持千万级别的日用户访问量。\n[0053] 3.1)根据图像的视觉特征,对检索结果进行排序。\n[0054] 对商品图像进行排序时,首先考虑图像的局部特征是否相似,即先进行局部匹配,获得相似性列表。然后在局部匹配的基础上根据颜色、形状或者图案等特征进行层级过滤,得到二次排序。\n[0055] 局部匹配主要用于从数据库中检索完全含有,或者含有大部分输入样图的图像。\n整个算法步骤如图5所示,具体如下:\n[0056] ●训练图像数据库中每张图像的特征,生成N个视觉单词(Visual Words)。首先提取所有数据库中的SIFT特征,然后采用级联K-Means算法对SIFT特征进行聚类,生成N个特征中心,并将此作为视觉单词集合。\n[0057] ●为了后续的SIFT特征匹配,获取每个SIFT特征的海明码,并连同SIFT特征保存。\n[0058] ●利用MSER(Most Stable External Region:最稳外部区域)算法,获取图像数据库中每张图像的MSER特征。\n[0059] ●将MSER和SIFT特征进行绑定。如果某个MSER特征对应的区域没有任何SIFT特征,则去除该MSER特征。否则,以某个MSER特征对应的区域内含有的SIFT特征集作为后续特征检索的基本特征单元。\n[0060] ●在进行检索前,需要保存上述的SIFT特征库,对应的海明码集合,以及视觉单词集合。\n[0061] ●在进行检索时,首先获取样例图的MSER和SIFT的绑定特征。然后统计每个绑定特征所对应的视觉单词集合,并根据集合中的每个视觉单词找到含有同样视觉单词的数据库图像,衡量两者之间的匹配度。对样例图中的每个绑定特征实施上述步骤,并建立一个投票机制,记录匹配度。\n[0062] ●投票机制的过程如下:SIFT所映射的每一个视觉单词都在视觉单词集合中查询,对查询到的含有该视觉单词的图像中的绑定特征进行投票打分,投票结果放在临时结果队列中,投票结果附上绑定特征的编号,用于对投票结果的整理,所有视觉单词都查询完后,整理临时结果队列,一个SIFT对一张图像的一个绑定特征,只保留一张得分最高的票,重复的票都删除;将整理后的结果存入投票队列中。\n[0063] ●整理投票结果,统计每张图像的得分,按分数对图像进行排序,结果写回投票队列。\n[0064] 为了得到最终的检索结果,采用层级过滤策略。首先利用局部特征匹配过程进行初步筛选,将筛选后的结果送入颜色和形状特征(或者图案特征)模块进行更进一步的相似度匹配。并将最终的结果返回给客户端。\n[0065] 3.2)显示页面进行布局,对相似度进行排序。\n[0066] 所有的检索结果将返回给客户端,并显示在客户端浏览器。显示模式可以有多种不同的布局。图6所示即为其中一种,客户端显示以斜对角线作为区分线,分别在X方向和Y方向(以左上角为原点)上按照颜色特征和形状特征(图案特征、局部特征)的相似性进行结果图的展示。结果图中同时含有商品价格、相应网络商家链接等信息。单击结果图,将可以该张结果图作为输入图进行新一轮的检索。\n[0067] 3.3)显示页面中,每张结果图同时含有商品价格、商家链接、比价链接等多种属性。\n[0068] 在结果页面,为了给用户提供更多的选择,引导客户更快地查看商品相关的信息,以及商品之间的比较,在每个结果显示页面,除了提供结果图以外,还在结果图的周围(上面或下面)提供商品价格信息、商品的商家链接、以及比价链接等信息。\n[0069] 在研究用户的购物习惯和用户网上购物体验以后,将对结果图像及其相关信息进行特定的布局排列,使得用户更容易、更方便、更快速的购买到想要的商品。最终目的是为了快速促成网络交易。
法律信息
- 2022-05-17
未缴年费专利权终止
IPC(主分类): G06F 17/30
专利号: ZL 201010186515.7
申请日: 2010.05.31
授权公告日: 2012.01.25
- 2012-01-25
- 2010-11-24
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201010186515.7
申请日: 2010.05.31
- 2010-10-06
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |