面向网购平台的商品图像类别预测方法\n技术领域\n[0001] 本发明属于多媒体信息检索技术领域,具体设及一种商品图像类别预测方法。\n背景技术\n[0002] 在互联网在线购物领域,数字图像信息有着文本信息不可取代的地位。尤其是在 个人对个人(Consumer to Consumer, C2C)和商家对顾客(Business to Customer, B2C) 运类应用当中,消费者存在迫切地希望能够看到商品的真实外观的需求。然而,相比文本信 息,数字图像信息在计算机中存储和传输所占用和消耗的资源都要大得多,运导致早期互 联网对图像信息的使用非常谨慎。幸运的是,随着计算机技术和互联网技术的高速发展,限 制数字图像甚至高质量的数字图像内容在互联网中存储和传输的瓶颈已经得到极大缓解。 另一方面,近年来随着物流领域的逐渐成熟和人们观念的转变,在线购物也逐渐成为人们 购物的主要渠道之一,网购平台在运样的环境下已经取得了长足的发展。在运种背景下,如 淘宝、京东和亚马逊等网购平台已经积累大量的商品图像信息,对于运些平台而言,如何更 有效地实现对数字图像信息的组织、分析、检索和向消费者展示已经变得十分重要W。\n[0003] 在网购平台网站中,商品图像的标题和分类等信息可W看成是商品图像的附属标 签信息。合理地利用运些标签能够指引用户根据自己需求浏览内容W,可W提升消费者的 使用体验,成为消费者浏览网购平台的重要辅助手段。在运种前提下,对商品图像类别的预 ,不论是于上传商品图像的商户而言还是对浏览商品图像的用户而言都是有着重大意义 的。然而要实现对于商品图像类别的预测,在当前的网购平台上,还存在着诸多的挑战。\n[0004] 首先,网购平台上的商品图像附属类别标签信息是由个体商户所提供的。同其他 社会化的多媒体数字图像分享平台一样,运些上传者可W认为是社会化的上传者。因此,运 些标签信息往往存在着与图像间不相关的情况W。运种相关情况取决于多个方面:\n[0005] (1)网购平台上不存在相关的类目。随着网购平台的发展壮大,运种情况正在不断 减少。并且,大多数网购平台的类目是层次结构的,因此即使没有准确的类目,也会有相关 的高层类目或在运些高层类目所包含的其他类别中。另一方面,商品图像的标题信息一般 可W自由添加,在运个方面不存在限制。\n[0006] (2)在附属标签的添加者和商品检索者之间存在语义鸿沟W。所谓语义鸿沟,一般 是指不同用户之间对图像的视觉表现理解是不同的。而在精确的商品图像检索过程中,运 种鸿沟更进一步体现为不同的用户对于相同商品名称表述的区别和对于不同商品名称表 述的混淆。运类问题在中国运个幅员迂阔的国家更为明显。不同地区、不同民族有着不同的 方言,在不同方言中,对于商品的名称往往有不同的表述。对于运个问题,许多商品图像的 上传者会通过添加商品名称的多个表述作为商品图像的标签,但运种处理方式本身对特定 的商品检索用户而言会带来不相关的标签,甚至带有误导作用的标签。\n[0007] (3)商品图像排序规则引起的过度优化行为。在网购平台上,商家为了牟利,希望 自己的商品能得到更多的曝光次数。其最为重要的手段之一就是针对网购平台捜索引擎进 行捜索引擎优化(Search Engine Optimization, SE0)。商家往往会选择用户捜索较多的 热口关键词标签,并选择其中与商品相关度较大的标签添加给商品。但在运种情况下,商家 选择添加何种标签全凭自身职业道德的约束,因此在竞争激烈的网购平台中,会存在有些 商家为了吸引用户,添加与商品相关度并不高的标签的情况发生。\n[0008] 因此,要利用网购平台自身的图像,首先需要对商品图像的标签信息进行清理,找 出真正存在巨大相关性的标签。在社会化图像分享平台上,运个问题有着较多的研 究[5' 6' 7' S3。传统解决方案是利用人工重新为训练数据集图像标记一些准确的标签,通过 运些准确的标签,W及图像的低层次特征,训练运些标签与图像低层次特征之间的相关性 模型,最后用运些模型来实现对于图像标签的清理或预测。运类方法的优点是,得到的结果 相对准确,但是但其缺点也十分明显,即需要大量的人工标记,运往往会耗费巨大的人力成 本,并且对图像本身的社会化标注而言是一种浪费。为了广泛地利用社会化标注,一些研究 则将用户标注、图像和图像特征之间建立相应的图关系。例如可W用运=者建立超图,在图 模型之上,可W利用图划分算法实现图像与标签之间相关性的计算W。也可W将运=者建 立一个或多个二分图,利用协同过滤算法,将图像划分到相应的标签上,从而实现清理不相 关标签的效果11' U3。也有研究从大规模数据的角度出发,采用部分无监督的方法建立 图像视觉的语义网络,并利用该语义网络和多模态的信息,对与标签不相关的图像进行过 滤。3' 14]。\n[0009] 其次,在大规模数据条件下,图像特征的提取也是重大的挑战之一。不论在标签信 息清理还是商品图像分类领域,图像特征提取都是运些领域的基础工作。\n[0010] 在标签信息清理的问题中,图像信息往往需要用到图像的多种特征。为了适应大 规模数据的处理,颜色特征和一些简单的纹理特征是较好的选择W3。而为了取得更好的效 果,尺度旋转不变的兴趣点特征(Scale-Invariant Feature Transform, SIFT)[is]也是相 当有用的特征。但在大规模的数据处理的条件下,效果相似,速度更快,且特征维度更低的 加速算法(Speeded Up Robust FeaUires, SURF)[i7]则是更为合适的选择。\n[0011] 在图像分类领域,基于视觉词包(Bag Of Visual Words, BOW)的分类算法是最为 主流的算法W3。在图像检索和分类应用中,由于图像的数量和词典的规模巨大,词典的训 练速度将成为应用的瓶颈。因此,K-means的聚类方法成为了训练词典的较好方法。但是尽 管经典的K-means算法在聚类算法中是一种速度较快的算法,大规模数据的情况下,其执行 效率依然会因为大量重复的计算而显得底下。为解决运一相关问题,有学者提出利用=角 形不等式加速K-means的方法,在理论上能够为K-means算法加速百倍W上。然而,运种 算法在K-means算法每轮的迭代过程中需要存储及其大量的中间数据,使得其难W全部存 放在计算机主存中从而导致其实际加速效果在大规模数据中效果并不佳。在此之后,基于 运种方法,又有学者提出一些在运行速度和主存空间使用中折中的优化算法21' 22^。运 些算法在词典较小的情况下的执行效率甚至能够超过[19]中所述的算法。\n[0012] 最后,大规模数据条件下的图像分类也是商品图像类别预测任务的重大挑战。在 运个任务中,大规模数据体现在两个方面。一方面是网购平台中商品图像的数量巨大,对于 每一个类别而言,可W用于训练的图像数据极为丰富,充分利用运大规模的数据,使其发挥 最大的效果是难点之一;另一方面是商品类别多,随着网购平台的发展,在线购物几乎可W 买到所有线下可W购买到的商品,因此商品种类繁多,类别与类别之间的区分越来越小。\n[0013] 在图像类别预测领域,传统的方法主要有使用SVM分类器训练金字塔匹配模 型^23^、基于仿生学的启发式模型25^和直接使用K順分类的模型W' 27' W等。近年来,也 有利用非线性SVM分类器训练空间金字塔(Spatial Pyramid Matching, SPM)的模型口9]在 一些知名的图像分类数据集上取得不错的效果。当然,最知名的还是要数基于BOW的分类算 法。运些分类算法在小规模的数据集中能够取得较好的效果。但对于当今的商品图像类别 预测,由于类别数量极多,所W运算速度非常缓慢,难W应用中直接使用。\n[0014] 在类别数量特别多的情况下,基于不同的分类模型,有研究人员利用层次分类的 方法对分类应用进行优化。通过对层次的不同定义,层次分类可W应用于不同的分类场合, 从而提高分类的准确率和效率nw。其中,与SVM分类器结合较好的有层次SVM分类nu和基于 贝叶斯方法的SVM分类运些方法和SVM分类器一样,可W独立于特征,解决普遍的多类 别数量的分类问题。\n[0015] 由上述分析可W看到,要实现基于网购平台上商品图像类别的预测,主要需要解 决的是在大规模图像数据背景下,图像与社会化标注间相关性的衡量、图像特征的提取W 及多类别图像层次分类的问题。因此,本发明由图像特征提取、不相关图像过滤、视觉词典 训练和多类别图像层次分类四个模块构成。运些模块中的核屯、算法构成本发明的核屯、内 容。\n[0016] 参考文献\n[0017] [ 1 JDatta,民.,Joshi, D., Li, J., and Wang, J.Z. 2008. Image retrieval: Ideas, influences, and trends of the new age. ACM Computing Surveys (CSUR), 40(2): Article 5.\n[001 引[2]Liu,D.,Hua,X.S.,Yang,L.J.,Wang,M.,andZhang,H.J.2009. I'ag ranking. In Proc• of WWW 2009,351-360.\n[0019] [3化ennedy, L.S., Qiang, S.F., and Kozintsev, I.V. 2006. To search or to label: predicting the performance of search-based automatic image classifiers. In Proc. of MIR 2006, 249-258.\n[0020] [4]Zhou, N., Peng, J.Y., Feng, X.Y., and Fan, J.P. 2011• Towards more precise social image-tag alignment. In Proc. of MMM 2011, Vol. Part II, 46- 56.\n[0021] [5]J. Li and J. Z. Wang. 2008. Real-Time Computerized Annotation of Pictures. In IEEE Transactions on Pattern Analysis and Machine Intelligence.\n[0022] [6]F. Monay and D. G. Perez. 2003. On Image Auto-annotation with Latent Space Modeling. In Proceeding of 10^*^ ACM International Conference on Multimedia.\n[0023] [7]G. Sychay, E. Y. Chang and K. Goh. 2002. Effective Image Annotation via Active Learning. In IEEE International Conference on Multimedia and Expo.\n[0024] [8]R. Shi, C. H. Lee and T. S. Quia. 2007. Enhancing Image Annotation by Integrating Concept Ontology and Text-based Bayesian Learning Model. In Proceeding of 14th ACM International Conference on Multimedia.\n[0025] [9]Gao, Y.,Wang, M., Luan, H.B., Shen, J.L., Yan, S.C., and Shuicheng Yan, andTao, D.C. 2011. Tag-based social image search with visual- text joint hypergraph learning. In Proc. of ACM MM 2011, 1517-1520.\n[0026] [10] G. Qiu. 2004. "Image and Feature Co-clustering,'. ICPR (4) :991- 994.\n[0027] [11] B. Gao, T.-Y. Liu, T. Qin, X. Zhang, Q.-S. Cheng, W.-Y. Ma. 2005. "Web image clustering by consistent utilization of visual features and surrounding texts,',ACM Multimedia.\n[0028] [12] M. Rege, M. Dong, J. Hua. 2008. %raph 化eoretical framework for simultaneously integrating visual and textual features for efficient web image clustering,',WWW.\n[0029] [13] Yang,C.L.,Peng,J.Y.,Feng,XY.,and Fan,J.P. 2012. Integrating bilingual search results for automatic junk image filtering. Multimedia Tools and Applications.\n[0030] [14] Gao, Y.L., Fan, J.P., Luo, H.Z., and Satoh S.I. 2008. A novel approach for filtering junk images from Google search results. In Proc. of MMM2008, Vol. Part II, 1-12.\n[0031] [15] Yuejie ZHANG, Yi ZHANG, Shuai 赃N, Cheng JIN, Xuanjing 册ANG. 2013. Junk Image Filtering via Multimodal Clustering for Tag-based Social Image Search, Vol. 9 (6): 2415- 2422.\n[0032] [16] Lowe, D. G. 2004. Distinctive image features from scale- invariant keypoints. International journal of computer vision, 60(2), 91-110.\n[0033] [17]Bay, H.,Tuytelaars, T.,& Van Gool,L. 2006. Surf: Speeded up robust features. In Computer Vision-ECCV 2006 (pp. 404-417). Springer Berlin Heidelberg.\n[0034] [18]Csurka, G., Dance, C., Fan, L., Willamowski, J., & Bray, C. 2004. Visual categorization with bags of keypoints. In Workshop on statistical learning in computer vision, ECCV Vol. 1, p. 22.\n[003日] [19]Elka打,C. 2003. Using the triangle inequality to accelerate k- means. In MA細INE LEARNING-INTERNATIONAL WORK細OP T皿N CONFE赃NCE- Vol. 20, No. I.\n[0036] [20化oheri Arai and Ali Ridho Barakbah. 2007. "Hierarchical K-means: an algorithm for Centroids initialization for k-means," department of information science and Electrical Engineering Politechnique in Surabaya, Faculty of Science and Engineering, Saga University, Vol. 36, No.I.\n[0037] [21] Greg Hamerly. 2010. "Making k-means even faster". In SIAM International Conference on Data Mining.\n[0038] [22] Drake, Jonathan, and Greg Hamerly. 2012. "Accelerated k-means with adaptive distance bounds." 5th NIPS Workshop on Optimization for Machine Learning.\n[0039] [23] Lazebnik,S•,Schmid,C•,Ponce,J• 2006• Beyond bags of features: Spstisl pyramid m过tching for recognizing n过tur过I scene categories.\n[0040] [ 24 jMarcAure I io 民 anzato, F.,Boureau , Y.,LeCun , Y . 2007. Unsupervised learning of invariant feature hierarchies with applications to object recognition. In: Proc. Computer Vision and Pattern Recognition Conference CVPR07.\n[0041] [25]Serre, T., Wolf, L., Poggio, T. 2005. Object recognition with features inspired by visual cortex. In: IEEE Computer Society Conference on Computer Vision and Pattern 民ecognition. Volume 2, 994.\n[0042] [26] Zhang, H., Berg, A., Maire, M., Malik, J. 2006. SVM-KNN: Discriminative nearest neighbor classification for visual category recognition. In: Proc. CVPR. Volume 2, 2126-2136.\n[0043] [27] Makadia, A., Pavlovic, V., Kumar, S. 2008. A new baseline for image annotation. In: Proc. ECCV, 316-329.\n[0044] [28] Torra;Lba,A.,Fergus, R.,Weiss, Y. 2008. Small codes and 1过巧6 image databases for recognition. In: IEEE Conference on Computer Vision and Pattern Recognition, 2008. CVPR 2008, 1-8.\n[004日][29] Bosch, A., Zisserman, A., Munoz, X. 2007.Representing shape with a spatial pyramid kernel. In: Proceedings of the 6th ACM international conference on Image and video retrieval, ACM, 408.\n[0046] [30] Silla Jr, C. N., & deltas, A. A. 2011. A survey of hierarchical classification across different application domains. Data Mining and Knowledge Discovery, 22(1-2), 31-72.\n[0047] [31] Yuan, X., Lai, W., Mei, T., Hua, X. S., Wu, X. Q., & Li, S. 2006. Automatic video genre categorization using hierarchical SVM. In Image Processing, 2006 IEEE International Conference on (pp. 2905-2908). IEEE.\n[0048] [32] Cesa-Bianchi, N., Gentile, C., & Zaniboni, L. 2006. Hierarchical classification: combining Bayes with SVM. In Proceedings of the 23rd international conference on Machine learning (pp. 177-184). ACM.〇\n发明内容\n[0049] 本发明的目的在于提出一种基于网购平台的商品图像类别预测方法,从而提升用 户在使用网购平台时的体验。\n[0050] 为此,本发明基于当前网购平台上大规模的商品图像数据,利用计算机科学中多 媒体信息处理、人工智能和机器学习等技术,为实现商品图像类别的预测构建了一套完整 的框架。这套框架可W自动地分析用户所输入的图像,利用由海量训练数据所产生的分类 模型,预测输入图像在网购平台中可能的类别信息,并将其向用户返回,便于用户检索和浏 览与输入图像相关的产品。因此,要实现商品图像类别的预测,需要包含W下步骤:\n[0051] (1)训练图像的获取一一向当前的网购平台爬取商品图像和图像相关标注,并初 步清理垃圾数据,为训练图像分类模型提供数据;\n[0052] (2)图像特征提取一一选择特定的特征表达方法,将爬取的图像从点阵表示转化 为特征表示;\n[0053] (3)不相关图像过滤一一利用2中所产生的特征表达,清除与标注不相关的商品 图像;\n[0054] (4)图像特征训练一一对于图像的兴趣点特征表达,进一步训练BOW词典,将图像 转化为词包表达;\n[0055] (5)多层次图像分类一一根据商品图像的词包表达,利用图像的BOW特征,训练多 层次的图像分类模型,并应用于用户输入图像的类别预测;\n[0056] (6)相关图像选择一一根据(5)中所提供的类别预测,选取返回给用户的相关图 像。\n[0057] 其中,图像特征提取、不相关图像过滤、图像特征训练、多层次图像分类则是本发 明的核屯、部分。\n[0058] 附图1为本发明系统框架图,包括训练图像的获取、图像特征提取、不相关图像过 滤、图像特征训练、多层次图像分类、相关图像选择六个模块。其中,训练图像获取模块从网 购平台获取商品图像数据,图像特征提取模块提取商品图像特征供图像特征训练和不相关 图像过滤模块使用,过滤不相关图像后,利用训练完成的特征使用多层次图像分类模块对 用户输入图像的类别进行预测,最后利用相关图像选择模块将相关图像向用户返回。\n[0059] 本发明的关键点是四个核屯、模块的算法包括六个模块的商品图像类别预测应用 框架。四个核屯、模块算法是:(1)图像特征提取和相关性定义算法;(2)不相关图像过滤算 法;(3)图像特征训练算法;(4)多层次图像分类算法。利用W上四个核屯、算法W及辅助运 些算法运行的两个模块设计一种基于网购平台的技术框架。\n[0060] 下面详细介绍本发明基于网购平台的商品图像类别预测方法及组成该框架的四 个核屯、算法和两个附属模块:\n[0061] 系统框架\n[0062] 该框架可分为(1)图像特征提取;(2)不相关图像过滤;(3)大规模图像特征训 练;(4)多层次图像分类等四个核屯、模块和训练图像获取、相关图像选择两个附属模块:此 夕h在该应用框架的各个模块中,还将运用一些目前已经比较成熟的算法和技术。\n[0063] (1)图像特征提取模块:在互联网中,大多数图像是W位图的方式存储在jpeg、 png、gif等图像格式中。运种W点阵方式保存的图像,具有表述简单,方便压缩等特点。但 是,在使用计算机视觉的方法对数字图像进行处理和分析时,运种表述方法的图像往往不 能直接使用,而需要将图像转化为其他更接近人对图像认知的方法进行重新表述。运种重 新表述的过程就是图像特征的提取。在特征提取的过程中,可W根据不同的需要从不同的 角度对图像进行表述,运些表述可W是图像的明暗、颜色、纹理、兴趣点等。为了将提取的图 像特征应用于后续不相关图像过滤W及图像分类过程中,图像特征提取模块不仅仅要定义 图像的特征,同时也需要定义不同图像间在某个特定特征上的相关性。运种特征表达相关 性的定义,可W为图像间在特征空间上的相似度计算奠定基础。\n[0064] (2)不相关图像过滤模块:网购平台上的商品图像都是由商户上传并标注的,运种 由社会化用户上传的标注总是存在着与实际图像并不完全符合的问题。运种问题的产生存 在多方面的原因,如网购平台商品类别不健全、上传者和浏览者之间语义鸿沟W及上传者 对捜索引擎的过度优化等。若训练数据中存在大量标签与图像间不正确的匹配,训练产生 的分类模型将会应噪声过大而没有意义。因此,在将直接从网购平台中爬取的商品图像及 相关标注作为训练数据前,需要对商品图像中不相关的标签做一次清理工作。将具有更大 相关性的数据和其标注,作为训练数据保留下来。运项工作从另一个角度看,即过滤相同标 签下与标签不相关的图像。\n[0065] (3)图像特征训练模块:根据当前流行的BOW分类模型,图像最终需要表达成词包 的形式。词包本身则是由图像中每一个视觉词出现的频率所组成。而视觉词则源于视觉词 典,是由训练样本训练所产生的。在网购平台商品图像类别预测的应用中,由于每一幅图像 中都能够抽取数百个与尺度、大小、旋转无关的兴趣点,因此,相比图像的数量,视觉兴趣点 的数量更加惊人。而要将运些视觉兴趣点训练成视觉词典,则需要有支持大规模数据的聚 类算法实现。具体的,在本发明中,选取了相比其他聚类运行效率更高的K-means算法作为 基础,并且在K-means算法上作进一步优化,W实现大规模图像特征的训练,最终实现图像 的视觉词包表达。\n[0066] (4)多层次图像分类模块:商品图像在网购平台中的特点除了数量巨大W外,类别 也特别多。普通的分类方法往往专注于解决两类或者少量类别的分类问题。而在商品图像 类别预测任务中,直接应用运些分类模型往往会产生分类效果急剧下降和时间复杂度迅速 增长的问题。比如,其中一些相对分类效果较好的方法,会随着类别数量的增长而使分类模 型的训练时间和利用分类模型预测新样本的时间成平方级地增长。运在不但图像数量巨 大,类别数量也巨大的商品图像类别预测中是不适用的。幸运的是,在网购平台中,商品的 类别总是W层次结构呈现,利用运种人为定义的层次结构,可W将商品图像的分类过程层 次化地进行。运样不仅能够加快训练和预测的速度,如果针对不同类别的商品训练不同的 模型,还能够提升商品预测的准确率。同时,运种层次化的分类模型训练方式,也更易于保 持训练分类模型时正负样本的平衡性。\n[0067] (5)训练图像获取模块和相关图像选择模块:由于本发明所使用的方法需要网购 平台上的商品图像及其标注信息数据所支撑,所W需要向网购平台爬取海量的训练图像。 然而,为了有效地利用网购平台上的商品图像数据,使用科学的方法对网购平台上的商品 图像及其标注进行采样至关重要。运是训练图像获取模块的主要工作。另一方面,在通过商 品图像类别预测系统对商品图像的类别预测W后,将相关的商品图像直接返回给用户能够 极大的提升用户对于系统使用的体验,因此,自动选择部分类别相关的图像返回给用户,也 是系统框架中所需要的模块之一。\n[0068] 下面对各部分的具体内容作进一步描述。\n[0069] 图像特征提取\n[0070] 本节内容所述的特征提取只包含图像底层特征的提取,而并不包含词包特征。词 包特征将在下文大规模图像特征训练节详细描述。为了能够全面地描述图像各方面的特 点,必须从多个角度选取图像的视觉特征。因此,本发明从颜色、纹理和兴趣点=个角度出 发,分别为每个方面选取一种适应于商品图像的特征。运=种图像的视觉特征分别是:(1) 基于网格的颜色直方图特征;(2) Gabor纹理特征;(3) SURF(Speeded Up Robust ^ature)兴趣点特征。\n[0071] 图像的颜色特征是人类对图像认知中最直观的特征。实际上计算机中彩色图像的 点阵表达也是通过对于描述图像每一个像素的颜色完成的。然而,目前常用的bmp、jpeg、 gif和png等图像格式一般都遵循红绿蓝(Red Green Blue, RGB)的颜色空间,运与人类对 色彩的认知并不相同。因此,为获取更符合人类认知的颜色特征,本发明先将图像从RGB空 间转换为色彩饱和度明暗化Ue Sa化ration化Iue,服V)空间。\n[0072] 颜色直方图是描述图像颜色特征的重要方法,运种方法统计每种颜色在单幅图像 中出现的概率,并将所有颜色的出现概率组成向量。然而,直接使用运种简单的方法对图像 颜色特征进行描述有两个明显的问题:(1)按照当前流行的图像编码方式,在RGB空间中每 个通道均有Sbit用于表示该通道的值,因此共有224种颜色,若要按照此方法描述一幅图像, 则向量将有224维,运是在当前技术条件下无法接受的;(2)图像自身的颜色直方图只能表 达图像全局的颜色特点,即对于出现在不同位置的相同色块无法区分。为克服问题(1),可 将颜色空间划分为多个区域,将同一个区域中的所有颜色看做同一种颜色,而运些区域则 被称为桶。然而,运种处理方式在大幅度减少颜色数量的同时,也会使得问题(2)更加突出。 本发明选用较为常见的36个桶的方式。为克服问题(2),可W将原始图像划分为多个网格, 利用不同数量的网格划分方式,实现不同尺度的颜色特征的表达。考虑到本发明应用于商 品图像,商品图像本身往往只描述少量物品,且物品一般均位于图像的中屯、位置,因此图像 的局部颜色特征并不如普通图像重要。因此,本发明仅选取巧巾尺度的网格用于描述图像颜 色特征。每种尺度的划分均是对上一种尺度中每一个网格进行田字划分。共 裘装。浆;聲穿=瑚个网格,麵游3叔与强佐维颜色直方图特征。附图2描述了选取4种尺度时 的网格划分方式。\n[0073] 基于运些颜色直方图特征,两幅图像U和V之间颜色直方图的相似性知,均可W 定义为:\n[0074]\n鋒)\n[0075] 其中,R=3,是所取网格划分图像尺度的种类数量;蛹《游词;表示原始分辨率的颜色 直方图相似性;黎M祐:崎表示第r种分辨率的颜色直方图相似度。\n[0076]\nPl\n[0077] 其中,錢纖滅郝髓城分别表示图像U和V中,第r种分辨率网格划分中第i个格子的 颜色直方图相似度;Norm代表的是二阶标准距离。\n[0078] 除颜色特征W外,纹理特征也是图像重要的传统特征。与颜色特征相同纹理特征 在不同尺度的表现也不同。另外纹理特征还具有方向性,因此本发明选用=个尺度四个方 向共12个21X21像素点的Gabor滤波器构造图像纹理特征。将原始图像转化为灰度图像后, 分别使用运些滤波器对图像做滤波操作。分别计算滤波后12幅图像所有像素点的均值和方 差,可W得到秘激还A魏维的Gabor纹理特征。\n[0079] 基于上述纹理特征,两幅图像U和V之间Gabor纹理的相似性跨挺姆可W被定义 为:\n[0080\n[0081 傑\n[00剧其中巧:代表所有图像馬批句的均值;幾按敍喊感绿分别代表图像U的第i个和图 像V的第j个Gabor描述子(包括均值和标准差)。\n[0083] 图像的颜色特征和纹理特征尽管已经经过尺度上的处理,但其本质上依然是全局 特征。因此为了更全面地描述图像,本发明引入兴趣点特征作为局部特征。SIFT算法和SURF 算法是两种经典的兴趣点提取算法。考虑到训练数据规模巨大,本发明选用执行更快,表达 也更简单的SURF算法。由于不同图像中的兴趣点数量并不相同,所W每幅图像的SURF特征 数量并不固定。但是SURF算法提取的每个兴趣点有64维。\n[0084] 基于上述SURF算法,由于不同图像间兴趣点的数量不同,因此难W直接计算两幅 图像间基于兴趣点特征的相似性。为此,本发明首先将两幅图像的兴趣点做一一配对(兴趣 点数量多的图像有部分兴趣点没有配对),使得所有兴趣点配对间二阶标准距离之和最小。 该配对可W用二分图匹配算法实现。至此两幅图像U和V之间SURF特征的相似性&稱伴!可 W被定义为:\n[0085]\n[0086] (4)\n[0087] 其中巧代表所有图像驾細读的均值A猶和马;《錢分别代表图像U的第i个兴趣点 和图像V中与其配对的兴趣点。\n[0088] 最后,视觉相似性可W通过一个混合的线性加权统计出最终的结果,因此图像U和\n^I'gj 4m /tu,I &\n[0089]\n[0090]\n[0091] 具甲,觀巧不巧一种符化所田的秋里,恨捉所巧凶像间>、-(战'诗、x/a,'")和>、*(«,.£') 的方差分配。将所有的特征的相似性合并起来可W将图像间的相似性问题简化,使后续应 用更易处理。\n[0092] 不相关图像过滤\n[0093] 基于图像两两间视觉相似度的定义,可W将图像及图像间的关系建立带权的无向 图模型。其中,每一幅图像都成为图中的一个点,图像两两间的相似度则成为连接两点间边 的权重。运样,由图像两两间相似性组成的相似性矩阵就是其按照上述规则所建立图模型 的邻接矩阵。\n[0094] 对于大规模社会化标注的图像,使用有监督的方法对不相关的图像进行过滤往往 需要利用人工重新标注大量信息。运类方法虽然效果较好,但是在类别数量巨大的商品图 像面前,需要大量的人力资源,所W并不适用。因此本发明选用了无需人工重新标注的无监 督的方法。\n[0095] 考虑到社会化用户为商品图像标注的类别标签在许多情况下都是准确的情况,可 W认为,在具备同一类别标签的所有商品图像中,具有大量的图像是与该标签是相关的。进 一步而言,对于属于相同类别的商品图像,在视觉特征上具有相关性。另一方面,对于与标 签不相关的商品图像,往往会属于多个不同的类别,运些图像在视觉特征上不仅与那些相 关图像相似性较小,互相之间的视觉特征差距也较大。因此,若能将所有图像聚类成一类内 部相似性很大,而该类与其他图像的类间相似性很小,则可W对不相关图像作一定程度上 的过滤。\n[0096] 要通过上述方法对图像聚类,首先需要定义图像类与图像类之间的类间距离W及 单个图像类内部的类内距离。对于两个图像类和餐而言,它们的类间距离可W定义为:\n[0097] (6)\n[009引 旨应的定义为:\n[0099] (?)\n[0100] 对于类内距离大于所有与其他类的类间距离的图像类,应当将其再度划分;对于 两类类间距离小于两类类内距离的,则应当将两类合并。通过运样两条规则,结合标准割算 法(Normal Cut, Ncut),可W对图像分类进行不断迭代。当迭代次数达到一定值或类别数 量达到预设最大类别数量即寸,停止迭代。运时,可从结果中选取其中图像数量最多的类,将 类中的所有图像作为相关图像,而将其他类别的图像作为不相关图像。虽然在该方法所得 到的结果中,作为不相关图像的类别内依然会存在大量的相关图像,但作为相关图像的类 别里,图像间的视觉相似性更大,与标签相关的可能性更高。对于可W利用海量的商品图像 的应用而言,在过滤不相关图像的过程中,流失少量相关图像也是可W接受的,只要保证被 排除的相关图像与不相关图像比例比原本的相关图像与不相关图像的比例更小。运样,对 于所有图像使用图模型上的分裂合并算法后,选取其中最大的类别,即可实现不相关图像 过滤,如附图3所示。\n[0101] 图像特征训练\n[0102] 为使用BOW特征训练商品图像的分类模型。首先需要对商品图像抽取兴趣点特征。 在本发明中,考虑到应用需要使用海量商品图像数据的特点,选用SURF算法作为提取图像 兴趣点特征的算法。相比经典的特征点提取算法SIFT,洲RF算法不仅在特征点提取时具备 更高的效率,而且最终对于兴趣点的特征表达也仅仅需要64维,只有SIFT算法128维的一 半。运能从理论上为BOW词典训练工作提升一倍效率。\n[0103] 网购平台商品图像的类别预测任务介于图像分类与图像检索之间,在部分图像上 具备图像检索的特性,而部分图像又体现图像分类的特性。因此本发明选取16384作为BOW 词典的规模,该规模大于一般图像分类应用而小于图像检索应用所使用的词典。\n[0104] 在目前的网购平台中,详细的商品类目有数万之巨,即使是基本商品的类目,也有 数百。在运样的背景下,即使只判别商品的基本类目,每类商品选取数千幅图像作为训练分 类模型使用,也需要有百万级别的商品图像。在使用SURF算法对商品图像抽取兴趣点的过 程中,平均每幅图像会被抽取数百个兴趣点。因此,用于训练BOW模型词典的兴趣点数量就 至少有数亿的规模。即使是将所有兴趣点的64维SURF特征存入运行系统的内存中,内存的 占用也将达到近百G的规模。在常用的聚类算法中,Wap-clustering为代表的基于样本点 间邻接矩阵的聚类算法在运样的样本规模下,所需要的空间将会达到目前大规模集群也难 W处理的百PB级别,运算量则更是远在此之上。因此,BOW词典的训练算法,只能局限于无需 计算样本点间邻接矩阵的算法之内。在无须计算样本点邻接矩阵中的聚类算法中,最为著 名的是K-means算法,该算法不但应用广泛,运算速度相对较快,且随着迭代执行的运行,聚 类效果会逐渐收敛至最佳。运种算法的优势在于,即使其收敛的过程需要执行数千轮迭代, 只要经过几十轮的迭代,就能够得到接近最终迭代收敛结果的一个解。\n[0105] 然而,K-means算法也有着巨大的缺陷,就是其算法最终结果收敛的效果很大程度 上依赖于初始中屯、的选择。在小规模数据中,K-means算法往往会被多次运行,而每次运行 都会选择不同的随机初始中屯、,最后选择多次运行的最佳结果作为最终结果。运种方法在 样本点和中屯、点数量较少时可W有较大可能得到全局较优的初始点分布,但当样本点数量 和中屯、点数量增加时,每一个初始中屯、点都处于较优位置的可能性成几何级数下降。因此, 运种方法在面对大规模数据时,并没有太大的实用性。另外一些基于规则的初始点选择方 法则与数据规模大小关系并不大。例如最大最小距离算法是每次选择一个能使与当前所有 的最小距离最大化的样本点作为一个新的中屯、,直至得到所有初始中屯、点。但运种方法一 方面由于规则本身限制随机性较小,另一方面,在最大最小距离时,所需要的运算开销,也 远比K-means算法本身更大而与需要计算邻接矩阵的聚类算法类似。因此在大规模数据的 条件下也无法使用。\n[0106] 相较上述初始点选择方法而言,一种利用层次聚类和K-means本身结合的初始点 选择方法则能够满足在海量数据条件下的诸多限制而成为本发明所使用的初始点选择方 法。运种被称为层次K-means聚类化ierarchical K-means)的算法其具体的算法流程如下:\n[0107] (1)设置迭代次数j = Q;\n[0108] (2)利用K-Means算法对原始数据进行聚类,K个随机点作为原始聚类中屯、,算法达 到收敛条件后得到K个聚类中屯、(巧};\n[0109] (3)当i
法律信息
- 2019-07-26
专利权的转移
登记生效日: 2019.07.08
专利权人由复旦大学变更为上海极链网络科技有限公司
地址由200433 上海市杨浦区邯郸路220号变更为202163 上海市崇明区中兴镇汲浜公路39号21号楼1103室
- 2016-09-28
- 2014-01-22
实质审查的生效
IPC(主分类): G06K 9/66
专利申请号: 201310262308.9
申请日: 2013.06.27
- 2013-10-09
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2010-08-04
|
2010-03-04
| | |
2
| |
2012-02-29
|
2011-05-06
| | |
3
| | 暂无 |
2000-12-12
| | |
4
| |
2012-09-12
|
2012-04-24
| | |
5
| |
2012-09-12
|
2012-03-20
| | |
6
| |
2011-11-23
|
2011-08-17
| | |
7
| |
2010-10-20
|
2009-04-16
| | |
8
| |
2009-10-21
|
2009-05-08
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |