著录项信息
专利名称 | 面向网购平台的商品图像类别预测方法 |
申请号 | CN201310262308.9 | 申请日期 | 2013-06-27 |
法律状态 | 暂无 | 申报国家 | 中国 |
公开/公告日 | 2013-10-09 | 公开/公告号 | CN103345645A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06K9/66 | IPC分类号 | G06K9/66;G06K9/46查看分类表>
|
申请人 | 复旦大学 | 申请人地址 | 上海市崇明区中兴镇汲浜公路39号21号楼11***
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 上海极链网络科技有限公司 | 当前权利人 | 上海极链网络科技有限公司 |
发明人 | 张玥杰;张溢;金城;薛向阳 |
代理机构 | 上海正旦专利代理有限公司 | 代理人 | 陆飞;盛志范 |
摘要
本发明属于多媒体信息检索技术领域,具体为基于网购平台的商品图像类别预测方法。本发明主要包含六个模块及相关算法,即训练图像的获取,图像特征提取,不相关图像过滤,图像特征训练,多层次图像分类,相关图像选择。本发明基于从网购平台上获取的真实数据,通过大规模数据的训练,能够自动分析图像中商品的类别信息,向用户提供购物指引,从而简化用户在线购物流程,增强用户体验,在图像检索领域具有广泛的应用价值。
1. 一种基于网购平台的商品图像类别预测方法,其特征在于具体步骤如下: (1) 获取训练图像,向当前的网购平台爬取商品图像和图像相关标注,并初步清理垃 圾数据,为训练图像分类模型提供数据; (2) 提取图像特征,选择特定的特征表达方法,将爬取的图像从点阵表示转化为特征 表不; (3) 过滤不相关图像,利用步骤(2)中所产生的特征表达,将与标注不相关的商品图像 去除; (4) 训练图像特征,对于图像的兴趣点特征表达,进一步训练BOW词典,将图像转化为 词包表达; (5) 多层次图像分类,利用图像的BOW特征,训练多层次的图像分类模型,并应用于用 户输入图像的类别预测; (6) 选择相关图像,根据步骤巧)中所提供的类别预测,选取返回给用户的相关图像; 其中,所述提取图像特征,首先,选取不同的图像特征,并对特征间的相似性进行定义; 其中,图像特征包含颜色、纹理和兴趣点特征Ξ部分; 抽取颜色特征,首先将原始图像按照Ξ种不同的尺度划分为共Us。潜' 於豕个网 格,并对每个网格抽取基于36个色彩饱和度明暗空间的颜色直方图特征,共絲:;振騰二:穿猶 维颜色直方图特征;基于运些颜色直方图特征,两幅图像U和V之间颜色直方图的相似性 較寬煤卿定义为:
其中,R=3,是所取网格划分图像尺度的种类数量;黎自|集豪)表示原始分辨率的颜色直方 图相似性;嫉納撼康示第r种分辨率的颜色直方图相似度;
其中,带細:和好Π '崎分别表示图像U和V中,第r种分辨率网格划分中第i个格子的颜色 直方图相似度;Norm代表的是二阶标准距离; 抽取纹理特征,Ξ个尺度四个方向共12个21X21像素点的Gabor滤波器被分别使用于 对图像做滤波操作;分别计算滤波后12幅图像所有像素点的均值和方差,得到0 X 3二24 维的Gabor纹理特征; 基于上述纹理特征,两幅图像U和V之间Gabor纹理的相似性齡纖編定义为:
其中,礎代表所有图像藥編緣的均值洩帕和載柔轉分别代表图像U的第i个和图像V的 第j个Gabor滤波器; 抽取兴趣点特征,选用SURF算法对图像进行处理;SURF算法提取的每个兴趣点有64 维; 将两幅图像的兴趣点做一一配对,使得所有兴趣点配对间二阶标准距离之和最小;该 配对用二分图匹配算法实现;于是,两幅图像U和V之间SURF特征的相似性^,(化刮定义为:
其中,啜代表所有图像街:齡線前均值;藥ii和驾參#分别代表图像U的第i个兴趣点和图 像V中与其配对的兴趣点; 最后,视觉相似性通过一个混合的线性加权统计出最终的结果,因此,图像U和V之间的 视觉相似性定义为:
其中,疲表示每一种特征所占的权重,根据所有图像间娛黏棘、:滿缺满瀬禱娘域的方 差进行分配;将所有的特征的相似性合并起来,将图像间的相似性问题简化,使后续应用更 易处理。
2. 根据权利要求1所述的预测方法,其特征在于所述过滤不相关图像,是利用图像预先 定义的特征和相似性,对不相关图像进行过滤; 首先对图像聚类,定义图像类与图像类之间的类间距离W及单个图像类内部的类内距 离: 对于两个图像类辕和辕而言,它们的类间距离定义为:
对于类内距离大于所有与其他类的类间距离的图像类,将其再度划分;对于两类类间 距离小于两类类内距离的,则将两类合并,通过运样两条规则,结合标准割算法,对图像分 类进行不断迭代;当迭代次数达到一定值或类别数量达到预设最大类别数量K时,停止迭 代;运时,从结果中选取其中图像数量最多的类,将类中的所有图像作为相关图像,而将其 他类别的图像作为不相关图像。
3. 根据权利要求2所述的预测方法,其特征在于所述的对于图像的兴趣点特征表达,进 一步训练BOW词典,就是利用层次聚类和K-means本身结合的方法用于K-means算法的初始 点选择,运种被称为层次K-means聚类的算法具体流程如下: (1) 设置迭代次数1:3恩; (2) 利用K-Means算法对原始数据进行聚类,K个随机点作为原始聚类中屯、,算法达到收 敛条件后得到K个聚类中必鷄凝; (3) 当i(C)重复执行(b)直至最终只剩下K类; 巧似流程(4)中得到的K个类中屯、作为初始类中屯、,执行按照流程(1)-(3化-means算 法,直至收敛,得到最终的K个类中屯、。
4.根据权利要求3所述的预测方法,其特征在于对于基于图像的兴趣点表达,训练视觉 BOW词典,进行进一步优化,具体是通过利用每个样本点与其上一轮所分配中屯、的距离和Ξ 角形不等式模型,推测其与本轮所有中屯、的距离关系;首先定义相关变量如下:
根据上述定义,利用3个Ξ角形不等式优化相关的距离计算,其迭代过程中判断样本点 所属中屯、的关键执行步骤如下: (1)若齡·:诚蘇許雌攘滤辑^';幾游评觀玻:婷I成立,则第i个样本i直接分配给中也舆;,否则 执行步骤(2); (2 )若贈I結蘇'Ήί瑞)辑输ί姨i%成立,则第i个样本点直接分配给中必%,否则 %;二:.够;%怎毎苗; (3)若岸*鞭二骗讀幾!成立,则第i个样本点至中必%的距离小于其与第j个中必点的 距离,可省去其与第j个中屯、点的距离计算;在步骤(2),(3)均不满足的条件下,需要计算 第i个样本点与第j个中必点的距离,更新SA;;。
5.根据权利要求3或4所述的预测方法,其特征在于所述的利用图像的BOW特征,训练多 层次的图像分类模型,是将基于SVM分类方法的算法用于训练分类模型;为解决BOW特征的 稀疏性问题选取一种改进的RBF核一一X 2-R邸核作为SVM核函数,该核函数的定义为:
利用商品类别本身的层次属性,从商品类别的最高层开始,自上而下地对商品的类别 进行预测,运种层次分类的方法将商品的分类关系表达成树结构,当树的节点具有多个子 节点时训练一个多类分类问题的模型,运种树结构的关系定义为:
其中,跨潔消分别代表第i,j,1个类别,C表示所有类别的集合; 在运样的树结构中,存在多种类别划分的策略用于层次分类,相关的变量定义如下:
基于相应的定义,选用如下方法定义正负样本: 运种定义方式通过自顶向下的顺序,对叶子节点类别进行分类模型训练;每次分类模 型的训练只包含同一父亲节点的所有兄弟节点;选取一对一的算法,解决该小规模的多类 分类问题,经过自顶向下,3-4次小规模多类别的分类之后,即得到样本的最终类别预测。
6. 根据权利要求5所述的预测方法,其特征在于所述的利用图像的BOW特征,训练多层 次的图像分类模型,在所述层次分类的基础上,加入一些潜在可能分类,使高层误分类情况 能够得到缓解,其具体步骤如下: (1) 在最高层的类别中,根据一对一算法预测时的排序结果,选择前五个类别作为商品 图像备选的类别; (2) 分别将商品图像应用于上一步所产生的五个类别中,亦根据一对一算法每类产生 五个子类别,得到25个相对于上一步中孙子代的备选类别; (3) 为步骤(2)中的25个类别训练一对一的多类SVM分类模型,根据其投票机制,选取排 名前五的类别循环执行步骤(2),直至所得到的五个类别均为叶子类别。
7. 根据权利要求1所述的预测方法,其特征在于步骤(7)所述的从网购平台爬取图像用 于选取分类模型训练数据的过程中做如下处理: (1) 在将爬取的商品图像用于分类训练前,在爬取原始商品图像时,按照预计训练图像 的两倍W上的规模爬取; (2) 在从网购平台爬取商品图像时,按照平台所提供统一的规格图像进行爬取; (3) 在应用SURF算法提取特征时,尺寸过小的图像和长宽比例极不协调的图像将会无 法提取,对于商家提供的尺寸过小的图像和长宽比例极不协调的图像在爬取过程中避免; (4) 所有类别需要保证在类别树中的深度一致。
8. -种基于权利要求7所述预测方法的系统,其特征在于包括如下6个模块:训练图像 的获取模块,图像特征提取模块,不相关图像过滤模块,图像特征训练模块,多层次图像分 类模块,相关图像选择模块。
法律信息
- 2019-07-26
专利权的转移
登记生效日: 2019.07.08
专利权人由复旦大学变更为上海极链网络科技有限公司
地址由200433 上海市杨浦区邯郸路220号变更为202163 上海市崇明区中兴镇汲浜公路39号21号楼1103室
- 2016-09-28
- 2014-01-22
实质审查的生效
IPC(主分类): G06K 9/66
专利申请号: 201310262308.9
申请日: 2013.06.27
- 2013-10-09
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2010-08-04
|
2010-03-04
| | |
2
| |
2012-02-29
|
2011-05-06
| | |
3
| | 暂无 |
2000-12-12
| | |
4
| |
2012-09-12
|
2012-04-24
| | |
5
| |
2012-09-12
|
2012-03-20
| | |
6
| |
2011-11-23
|
2011-08-17
| | |
7
| |
2010-10-20
|
2009-04-16
| | |
8
| |
2009-10-21
|
2009-05-08
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |