著录项信息
专利名称 | 一种识别重复缩略图的方法、装置及在搜索引擎中的应用 |
申请号 | CN200810114318.7 | 申请日期 | 2008-06-03 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2008-10-22 | 公开/公告号 | CN101290634 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0;;;G;0;6;T;7;/;4;0查看分类表>
|
申请人 | 北京搜狗科技发展有限公司 | 申请人地址 | 北京市海淀区中关村东路1号院9号楼搜狐网络大厦9层01房间
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 北京搜狗科技发展有限公司 | 当前权利人 | 北京搜狗科技发展有限公司 |
发明人 | 李华北;张阔 |
代理机构 | 北京集佳知识产权代理有限公司 | 代理人 | 逯长明 |
摘要
本发明公开了一种识别重复缩略图的方法及装置,以解决缩略图中存在重复缩略图而影响图像质量的问题。所述方法包括:分析缩略图内容,获取图像的颜色特征;根据所述颜色特征,判断是否存在重复缩略图;对重复缩略图进行处理。将所述识别重复缩略图的方法应用到搜索引擎中,本发明还提供了一种在搜索结果中识别重复缩略图的装置,在排序靠前的搜索结果中去除重复结果后,丰富了搜索结果的多样性,提高了搜索引擎的搜索性能,并极大地提升了用户体验。
1.识别重复缩略图的方法,其特征在于,包括:
分析缩略图内容,获取图像的颜色特征;所述颜色特征包括全局颜色特征:所述全局颜色特征包括主颜色编号、主颜色率和颜色多样性;所述全局颜色特征通过以下方式获取:量化颜色空间模型的颜色数;根据所述颜色数,计算缩略图的归一化颜色直方图;遍历所述颜色直方图,将所述颜色直方图中的峰值分量确定为主颜色率,并将峰值对应的序号确定为主颜色编号;将颜色直方图中分量大于等于预置阈值的颜色,确定为缩略图的有效颜色,有效颜色的总数为颜色多样性;所述颜色特征还包括局部颜色特征:所述局部颜色特征包括均值颜色方格图;所述局部颜色特征通过以下方式获取:将缩略图均匀划分为n小块;计算每一小块的均值颜色,得到该缩略图的n维均值颜色方格图;
根据全局颜色特征值和局部颜色特征值计算缩略图的相似度;判断所述相似度是否符合预置条件,如果符合,则为重复缩略图;
对重复缩略图进行处理。
2.根据权利要求1所述的方法,其特征在于,所述预置条件包括:主颜色编号相同,主颜色率的相似度、颜色多样性的相似度、均值颜色方格图的相似度大于等于预置阈值。
3.根据权利要求2所述的方法,其特征在于,所述预置条件还包括:缩略图的文字信息相同。
4.根据权利要求1所述的方法,其特征在于,还包括:
利用全局颜色特征值和局部颜色特征值计算缩略图的特征编码;判断缩略图的特征编码是否相同,如果相同,则为重复缩略图。
5.根据权利要求4所述的方法,其特征在于,判断缩略图的特征编码是否相同具体包括:
将缩略图的特征编码作为哈希表的主键;
当处理一个缩略图时,判断哈希表中以该处理的缩略图的特征编码为主键的存储位置是否已被占据,如果是,则该处理的缩略图与占据所述存储位置的缩略图重复;如果否,则将该处理的缩略图的标识填入所述存储位置。
6.根据权利要求5所述的方法,其特征在于,当该处理的缩略图与占据所述存储位置的缩略图重复时,还包括:
比较所述两个缩略图的上传时间,将上传时间较新的缩略图标识填入所述存储位置,并将另一个缩略图作为重复结果。
7.根据权利要求1所述的方法,其特征在于,对重复缩略图进行处理具体包括:
将重复缩略图进行降权或删除处理。
8.识别重复缩略图的装置,其特征在于,包括:
缩略图分析单元,用于分析缩略图内容,获取图像的颜色特征;所述颜色特征包括全局颜色特征:所述全局颜色特征包括主颜色编号、主颜色率和颜色多样性;所述全局颜色特征通过以下方式获取:量化颜色空间模型的颜色数;根据所述颜色数,计算缩略图的归一化颜色直方图;遍历所述颜色直方图,将所述颜色直方图中的峰值分量确定为主颜色率,并将峰值对应的序号确定为主颜色编号;将颜色直方图中分量大于等于预置阈值的颜色,确定为缩略图的有效颜色,有效颜色的总数为颜色多样性;所述颜色特征还包括局部颜色特征:所述局部颜色特征包括均值颜色方格图;所述局部颜色特征通过以下方式获取:将缩略图均匀划分为n小块;计算每一小块的均值颜色,得到该缩略图的n维均值颜色方格图;
模糊排重单元,用于根据全局颜色特征值和局部颜色特征值计算缩略图的相似度,并判断所述相似度是否符合预置条件,如果符合,则为重复缩略图;
重复处理单元,用于对重复缩略图进行处理。
9.根据权利要求8所述的装置,其特征在于,所述预置条件包括:主颜色编号相同,主颜色率的相似度、颜色多样性的相似度、均值颜色方格图的相似度大于等于预置阈值。
10.根据权利要求9所述的装置,其特征在于,所述预置条件还包括:缩略图的文字信息相同。
11.根据权利要求8所述的装置,其特征在于,还包括:
精确排重单元,用于利用全局颜色特征值和局部颜色特征值计算缩略图的特征编码,并判断缩略图的特征编码是否相同,如果相同,则为重复缩略图。
12.根据权利要求11所述的装置,其特征在于,所述精确排重单元通过以下方式判断缩略图的特征编码是否相同:
将缩略图的特征编码作为哈希表的主键;
当处理一个缩略图时,判断哈希表中以该处理的缩略图的特征编码为主键的存储位置是否已被占据,如果是,则该处理的缩略图与占据所述存储位置的缩略图重复;如果否,则将该处理的缩略图的标识填入所述存储位置。
13.根据权利要求8所述的装置,其特征在于,所述重复处理单元对重复缩略图进行以下处理:
将重复缩略图进行降权或删除处理。
14.在搜索结果中识别重复缩略图的装置,其特征在于,包括:
缩略图分析单元,用于分析缩略图内容,获取图像的颜色特征;所述颜色特征包括全局颜色特征:所述全局颜色特征包括主颜色编号、主颜色率和颜色多样性;所述全局颜色特征通过以下方式获取:量化颜色空间模型的颜色数;根据所述颜色数,计算缩略图的归一化颜色直方图;遍历所述颜色直方图,将所述颜色直方图中的峰值分量确定为主颜色率,并将峰值对应的序号确定为主颜色编号;将颜色直方图中分量大于等于预置阈值的颜色,确定为缩略图的有效颜色,有效颜色的总数为颜色多样性;所述颜色特征还包括局部颜色特征,所述局部颜色特征包括均值颜色方格图;所述局部颜色特征通过以下方式获取:将缩略图均匀划分为n小块;计算每一小块的均值颜色,得到该缩略图的n维均值颜色方格图;
数据制作单元,用于将缩略图的颜色特征添加到搜索引擎的索引数据中;
精确排重单元,用于读取索引数据中的颜色特征,利用全局颜色特征值和局部颜色特征值计算缩略图的特征编码;判断缩略图的特征编码是否相同,如果相同,则为重复缩略图;
模糊排重单元,用于读取索引数据中的颜色特征,根据全局颜色特征值和局部颜色特征值计算缩略图的相似度,并判断所述相似度是否符合预置条件,如果符合,则为重复缩略图;
重复处理单元,用于对重复缩略图进行处理。
15.根据权利要求14所述的装置,其特征在于:
所述精确排重单元具体用于在线搜索时识别完全相同的缩略图,所述模糊排重单元具体用于对排序靠前的搜索结果进行相同或相似缩略图的识别。
16.根据权利要求14所述的装置,其特征在于,所述预置条件包括:主颜色编号相同,主颜色率的相似度、颜色多样性的相似度、均值颜色方格图的相似度大于等于预置阈值。
17.根据权利要求14所述的装置,其特征在于,所述重复处理单元对重复缩略图进行以下处理:
将搜索结果中的重复缩略图进行降权处理,排到搜索结果列表的尾部;或者删除重复的缩略图。
技术领域\n本发明涉及网络技术领域,特别是涉及一种识别重复缩略图的方法、装置及在搜索引擎中的应用。\n背景技术\n缩略图即为一个缩小的图片,通过这个图片可以粗略地了解原图片内容。缩略图较多地应用于图片或视频搜索中,是搜索结果页中最直观的展现形式。\n图片或视频搜索引擎的搜索结果是通过缩略图和文字信息展现给用户,这些结果数据一般由“网络爬虫”抓取或由专门的视频或图片网站提供。但由于数据来源的多样性和网络资源的随意性,结果数据往往具有一定比例的重复,这种重复性主要体现为缩略图重复和文字信息重复。\n在搜索引擎应用中,缩略图与用户的查询请求相关程度、图像质量以及缩略图的多样性等因素,在很大程度上决定着搜索引擎的检索性能和用户的使用感受。因此,用户常常将缩略图重复的结果认定为重复结果,而文字信息重复与否往往被用户忽略或仅供参考。\n如果搜索结果页面中包含大量的重复结果(主要指重复缩略图),则会带来如下问题:\n第一,搜索结果单调,缺乏多样性。如果重复结果大量占据搜索结果页面,使得搜索结果显得单调,缺乏多样性。\n第二,影响搜索的查准率。如果重复结果与用户的搜索请求不相关,则会占据相关结果的位置,使得相关结果没有机会返回给用户或者相关结果的排序靠后,从而大大降低搜索结果整体的相关性,影响搜索的查准率。\n第三,较差的用户体验。当用户提交某查询请求后,首页返回结果中如果存在较多的重复结果,必然造成用户的厌烦心理,导致较差的用户体验。\n发明内容\n本发明所要解决的技术问题是提供一种识别重复缩略图的方法及装置,以解决缩略图中存在重复缩略图而影响图像质量的问题。\n本发明的另一个目的是将所述识别重复缩略图的方法应用到搜索引擎中,提供一种在搜索结果中识别重复缩略图的装置,以解决图片或视频等搜索中由于存在重复缩略图,导致搜索结果单调、查准率低、用户体验差的问题。\n为解决上述技术问题,根据本发明提供的具体实施例,本发明公开了以下技术方案:\n识别重复缩略图的方法,包括:\n分析缩略图内容,获取图像的颜色特征;所述颜色特征包括全局颜色特征:所述全局颜色特征包括主颜色编号、主颜色率和颜色多样性;所述全局颜色特征通过以下方式获取:量化颜色空间模型的颜色数;根据所述颜色数,计算缩略图的归一化颜色直方图;遍历所述颜色直方图,将所述颜色直方图中的峰值分量确定为主颜色率,并将峰值对应的序号确定为主颜色编号;将颜色直方图中分量大于等于预置阈值的颜色,确定为缩略图的有效颜色,有效颜色的总数为颜色多样性;所述颜色特征还包括局部颜色特征:所述局部颜色特征包括均值颜色方格图;所述局部颜色特征通过以下方式获取:将缩略图均匀划分为n小块;计算每一小块的均值颜色,得到该缩略图的n维均值颜色方格图;\n根据全局颜色特征值和局部颜色特征值计算缩略图的相似度;判断所述相似度是否符合预置条件,如果符合,则为重复缩略图;\n对重复缩略图进行处理。\n其中,所述预置条件包括:\n主颜色编号相同,主颜色率的相似度、颜色多样性的相似度、均值颜色方格图的相似度大于等于预置阈值。\n优选的,所述预置条件还包括:缩略图的文字信息相同。\n优选的,还包括:\n利用全局颜色特征值和局部颜色特征值计算缩略图的特征编码;判断缩略图的特征编码是否相同,如果相同,则为重复缩略图。\n其中,判断缩略图的特征编码是否相同具体包括:\n将缩略图的特征编码作为哈希表的主键;当处理一个缩略图时,判断哈希表中以该处理的缩略图的特征编码为主键的存储位置是否已被占据,如果是,则该处理的缩略图与占据所述存储位置的缩略图重复;如果否,则将该处理的缩略图的标识填入所述存储位置。\n优选的,当处理的该缩略图与占据所述存储位置的缩略图重复时,还包括:比较所述两个缩略图的上传时间,将上传时间较新的缩略图标识填入所述存储位置,并将另一个缩略图作为重复结果。\n其中,对重复缩略图进行处理具体包括:\n将重复缩略图进行降权或删除处理。\n另一种识别重复缩略图的装置,包括:\n缩略图分析单元,用于分析缩略图内容,获取图像的颜色特征;所述颜色特征包括全局颜色特征:所述全局颜色特征包括主颜色编号、主颜色率和颜色多样性;所述全局颜色特征通过以下方式获取:量化颜色空间模型的颜色数;根据所述颜色数,计算缩略图的归一化颜色直方图;遍历所述颜色直方图,将所述颜色直方图中的峰值分量确定为主颜色率,并将峰值对应的序号确定为主颜色编号;将颜色直方图中分量大于等于预置阈值的颜色,确定为缩略图的有效颜色,有效颜色的总数为颜色多样性;所述颜色特征还包括局部颜色特征:所述局部颜色特征包括均值颜色方格图;所述局部颜色特征通过以下方式获取:将缩略图均匀划分为n小块;计算每一小块的均值颜色,得到该缩略图的n维均值颜色方格图;\n模糊排重单元,用于根据全局颜色特征值和局部颜色特征值计算缩略图的相似度,并判断所述相似度是否符合预置条件,如果符合,则为重复缩略图;\n重复处理单元,用于对重复缩略图进行处理。\n其中,所述预置条件包括:主颜色编号相同,主颜色率的相似度、颜色多样性的相似度、均值颜色方格图的相似度大于等于预置阈值。\n优选的,所述预置条件还包括:缩略图的文字信息相同。\n优选的,还包括:\n精确排重单元,用于利用全局颜色特征值和局部颜色特征值计算缩略图的特征编码,并判断缩略图的特征编码是否相同,如果相同,则为重复缩略图。\n其中,所述精确排重单元通过以下方式判断缩略图的特征编码是否相同:\n将缩略图的特征编码作为哈希表的主键;\n当处理一个缩略图时,判断哈希表中以该处理的缩略图的特征编码为主键的存储位置是否已被占据,如果是,则该处理的缩略图与占据所述存储位置的缩略图重复;如果否,则将该处理的缩略图的标识填入所述存储位置。\n其中,所述重复处理单元对重复缩略图进行以下处理:\n将重复缩略图进行降权或删除处理。\n在搜索结果中识别重复缩略图的装置,包括:\n缩略图分析单元,用于分析缩略图内容,获取图像的颜色特征;所述颜色特征包括全局颜色特征:所述全局颜色特征包括主颜色编号、主颜色率和颜色多样性;所述全局颜色特征通过以下方式获取:量化颜色空间模型的颜色数;根据所述颜色数,计算缩略图的归一化颜色直方图;遍历所述颜色直方图,将所述颜色直方图中的峰值分量确定为主颜色率,并将峰值对应的序号确定为主颜色编号;将颜色直方图中分量大于等于预置阈值的颜色,确定为缩略图的有效颜色,有效颜色的总数为颜色多样性;所述颜色特征还包括局部颜色特征,所述局部颜色特征包括均值颜色方格图;所述局部颜色特征通过以下方式获取:将缩略图均匀划分为n小块;计算每一小块的均值颜色,得到该缩略图的n维均值颜色方格图;\n数据制作单元,用于将缩略图的颜色特征添加到搜索引擎的索引数据中;\n精确排重单元,用于读取索引数据中的颜色特征,利用全局颜色特征值和局部颜色特征值计算缩略图的特征编码;判断缩略图的特征编码是否相同,如果相同,则为重复缩略图;\n模糊排重单元,用于读取索引数据中的颜色特征,根据全局颜色特征值和局部颜色特征值计算缩略图的相似度,并判断所述相似度是否符合预置条件,如果符合,则为重复缩略图;\n重复处理单元,用于对重复缩略图进行处理。\n其中,所述精确排重单元具体用于在线搜索时识别完全相同的缩略图,所述模糊排重单元具体用于对排序靠前的搜索结果进行相同或相似缩略图的识别。\n其中,所述预置条件包括:\n主颜色编号相同,主颜色率的相似度、颜色多样性的相似度、均值颜色方格图的相似度大于等于预置阈值。\n其中,所述重复处理单元对重复缩略图进行以下处理:\n将搜索结果中的重复缩略图进行降权处理,排到搜索结果列表的尾部;或者删除重复的缩略图。\n根据本发明提供的具体实施例,本发明具有以下技术效果:\n首先,本发明提供了一种识别重复缩略图的方法及装置,通过提取缩略图的全局颜色特征和局部颜色特征,并根据所述颜色特征来识别重复缩略图。所述方法能够从大量的缩略图中识别出重复的缩略图,从而提高缩略图的整体图像质量。\n其次,本发明将上述方法应用到图片或视频搜索中,能够快速识别出搜索结果中的重复结果,并带来以下优点:\n第一,丰富了搜索结果的多样性。由于将重复结果进行降权或去除处理,所以在排序靠前的搜索结果中去除了重复结果,使得结果页面更加丰富多样。\n第二,提高了搜索引擎的搜索性能。在排序靠前的搜索结果中去除重复结果后,增加了相关结果获得较高排序的机会,提高了查准率。\n第三,提升了用户体验。在排序靠前的搜索结果中去除重复结果后,结果页面给人一种丰富多样的感觉,提升了用户体验和搜索引擎的整体形象。\n再次,本发明提供了两种识别方式,一种是精确识别方式,用于识别完全相同的缩略图,这种识别方式的处理速度快,能够在线对所有搜索结果进行识别处理;另一种是模糊识别方式,用于识别相同或相似的缩略图,这种方式能够保证较高的识别率。将所述两种识别方式结合起来,能够大幅度降低搜索结果的重复率,达到更好的处理效果。\n附图说明\n图1是本发明实施例一所述识别重复缩略图的方法流程图;\n图2是本发明实施例一中分析缩略图获取全局颜色特征的步骤流程图;\n图3是本发明实施例一所述识别重复缩略图的装置结构图;\n图4是本发明实施例二所述在搜索结果中识别重复缩略图的方法流程图;\n图5是本发明实施例二所述在搜索结果中识别重复缩略图的装置结构图。\n具体实施方式\n为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。\n实施例一:\n针对缩略图中存在重复缩略图的问题,本发明实施例一提供了一种识别重复缩略图的方法,通过提取缩略图的颜色特征,并根据所述颜色特征来识别重复缩略图。\n参照图1,是本发明实施例一所述识别重复缩略图的方法流程图。\nS101,分析缩略图内容,获取图像的颜色特征。\n本实施例使用颜色空间模型对缩略图的颜色属性进行分析。颜色通常由三个相互独立的变量来描述,这三个独立变量就构成颜色空间模型,颜色空间中的每个三维空间坐标对应着一种颜色。典型的颜色空间包括RGB空间(Red分量+Green分量+Blue分量,即红色+绿色+蓝色),HSI空间(Hue分量+Saturation分量+Intensity分量,即色调+饱和度+亮度)和YCbCr空间(一种亮度分量+两种色度分量)等,不同颜色空间之间可以相互转化。本实施例可以采用所述任意一种颜色空间模型,在此不作限定。\n利用颜色空间模型分析得到图像的颜色特征,本实施例中,所述颜色特征包括全局颜色特征。所述全局颜色特征可以包括主颜色编号、主颜色率、颜色多样性。其中,主颜色编号用于唯一标识缩略图在颜色空间模型中的主要颜色。例如,在256色的颜色空间中,颜色编号为0~255,主颜色编号即为缩略图对应的主色调编号。主颜色率表示主颜色对应的像素占整幅图像总像素数的比例。颜色多样性表示缩略图中的有效颜色数目,所述有效颜色是指能够被识别出来的颜色。除此,颜色特征还可以包括次主颜色、次主颜色率等其他表征颜色属性的参数。\n参照图2,是本发明实施例一中分析缩略图获取全局颜色特征的步骤流程图。本实施例以RGB空间模型为例进行说明。\nS201,量化颜色空间。\n量化颜色空间是指用几个比特(bit)来表示一个颜色分量。例如,Windows真彩位图就是用8bit表示一个颜色分量,也就是说真彩位图可分辨的颜色数为256×256×256。量化过程如下:\n首先,确定一种颜色空间如RGB空间;其次,确定量化尺度,例如使用x比特表示颜色空间的一个分量,即R、G、B各分量分别量化为2x种颜色,整个颜色空间就被量化为2x×2x×2x种颜色。\n在量化颜色空间时需要考虑三个因素:其一,实现各分量的均匀量化,即每个分量量化为同样大小;其二,满足普通用户辨识颜色的需求;其三,具有较小的空间复杂度。即如果所用bit太多,会大大增加算法的空间复杂度;如果所用bit太少,则可分辨的颜色又太少。因此,根据实际应用情况不同,应选择合适的量化尺度。\nS202,根据上述量化颜色空间得到的颜色数,计算归一化颜色直方图。\n颜色直方图为图像处理领域广泛使用的图像颜色特征,其描述了不同色彩的像素在整幅图像中所占的比例。归一化颜色直方图H[256]表示一个256维的特征向量,各分量表示属于此颜色的像素比例,例如H[0]表示图像中颜色为第0号颜色的像素所占的比例。归一化颜色直方图为一个中间结果,用于计算后续的颜色特征。\nS203,根据所述直方图获取颜色特征。\n如果颜色特征包括主颜色编号、主颜色率,则遍历所述颜色直方图的各个分量,将所述颜色直方图中的峰值分量确定为主颜色率,并将峰值对应的序号确定为主颜色编号。\n颜色多样性表示某幅图像中能被用户辨识出来的有效颜色数目,用户能够辨识出来的颜色越多,用户体验越好。如果颜色特征包括颜色多样性,则遍历所述颜色直方图的各个分量,当直方图的某一分量大于(或大于等于)预先设定的阈值(即该颜色像素占据一定比例,比如0.005,表示占整幅图像像素总数的0.5%)时,将该分量对应的颜色确定为缩略图有效颜色,有效颜色总数即颜色多样性。\n本实施例中,有效颜色不包括灰度颜色,因为灰度颜色没有色彩,此处不算作有效颜色。\n经过图2的处理,就可以得到主颜色编号、主颜色率、颜色多样性这三种全局颜色特征。\n优选的,缩略图的颜色特征还可以包括局部颜色特征,所述局部颜色特征主要指均值颜色方格图。首先将缩略图均匀分割为n小块,然后计算每一小块图像的均值颜色,就得到了该缩略图的n维均值颜色方格图。所述局部颜色特征简单有效,并且根据颜色空间的量化,每一维分量的取值范围为2x个整数,因此针对缩略图具有很强的区分力。\n其中,计算每一小块均值颜色的方法是:\n设一幅缩略图的大小为4m×4n,则将其均匀的分为16个m×n的小图后,每个小块图像包含m×n个像素。小块图像中的每个像素Pixeli,都有一个颜色编号Colori,则该小块图像的均值颜色为\n此外,将缩略图划分为小块时需要考虑两点:\n一方面,如果块数越少,则存储量小,空间复杂度低,但是均值颜色的分辨力也越低。例如,对于一幅大小为4m×4n的缩略图,极限情况只分一块,即为整个图像,这时只需一个存储单元,但是分辨能力很差。\n另一方面,如果块数越多,则分辨能力越强,但是存储量大,空间复杂度高。例如对于一幅大小为4m×4n的缩略图,极限情况下分为4m×4n块,即每个像素为一块,这时分辨力很强,但需要4m×4n个存储单元,相当于把缩略图再存一遍。\n因此基于以上两点,在分块时需要在空间复杂度和分辨力这两个问题上进行权衡,取一个经验值。\n通过以上内容,就可以从缩略图中获得全局颜色特征和局部颜色特征。\nS102,根据所述颜色特征,判断是否存在重复缩略图。\n本实施例提供了两种识别方式,一种是精确识别,另一种是模糊识别,下面分别详细说明。\n精确识别方式也称为精确排重,用于识别完全相同的缩略图,具体识别方法是:\n首先,计算缩略图的特征编码。利用全局颜色特征值和局部颜色特征值计算缩略图的特征编码,该特征编码与缩略图的颜色特征密切相关,如果两幅缩略图的颜色特征相同,则计算得到的特征编码也相同。本实施例采用的计算方式是将全局颜色特征和局部颜色特征的联合二进制编码作为一个缩略图的特征编码,这种计算方式的重码率很低。下面举例说明联合二进制编码。\n假设一幅缩略图的大小为4m×4n,则将其均匀的分为16个m×n的块,并采用256种颜色量化方法。则局部颜色特征为16个8位二进制数(0到255),全局颜色特征中,主颜色编号、颜色多样性各是1个8位二进制数(0到255),主颜色率也可用1个8位二进制数表示。将这19个8位二进制数合为一个152位二进制数就是这幅缩略图的联合二进制码。这个编码空间为25619=2152,所以重码率很低。\n其次,利用特征编码进行重复判断。如前所述,如果两幅缩略图的颜色特征相同,则计算得到的特征编码也相同。利用这一点,可以判断缩略图的特征编码是否相同,如果相同,则为重复缩略图。\n基于以上判断方式,一种具体的实现方法是利用Hash表技术提供一种“主键——存储位置”的对应存储方式,从而实现数据对象的快速查找。具体步骤为:将缩略图的特征编码作为哈希表的主键,当处理一个缩略图时,判断哈希表中以该缩略图的特征编码为主键的存储位置是否已被占据。如果该位置未被占据,说明目前还没有出现相同特征编码的缩略图,所以该缩略图为非重复结果,将其填入哈希表的该存储位置。实际上,填入哈希表的是该缩略图的标识ID。如果该位置已被占据,则说明该缩略图与占据该存储位置的缩略图是一对重复结果。\n优选的,对于判断出的一对重复结果,比较两者的上传时间,将较新的缩略图ID填入哈希表的存储单元,而另一个缩略图作为重复结果。\n上述精确排重方式的处理速度较快,但是只能处理完全相同的缩略图,对于两幅相差极小的缩略图无效,导致排全率不高。因此基于所述原因,还提出一种模糊排重方式。\n模糊识别方式也称为模糊排重,用于识别相同或相似的缩略图,识别方法是:根据全局颜色特征值和局部颜色特征值计算缩略图的相似度,然后判断所述相似度是否符合预置条件,如果符合,则为重复缩略图。具体识别步骤如下:\n首先,进行初始化,确定处理页面数和提前结束条件。例如模糊排重处理页数=4,非重复结果页数(即提前结束条件)=3,表示当处理完4页结果或得到3页互不重复的结果时排重操作结束。这样既保证了前几页的排重质量,又降低了时间复杂度。\n其次,判断重复缩略图。利用缩略图颜色特征的相似度来判断两幅缩略图是否重复,判断条件包括:主颜色编号是否相同,主颜色率的相似度、颜色多样性的相似度、均值颜色方格图的相似度是否大于(或大于等于)预置阈值。优选的,还可以利用缩略图的文字信息进行判断。\n一种优选的判断条件是,同时满足如下条件的缩略图就判定为重复缩略图:\nA.主颜色编号相同;\nB.主颜色率相差不大,即主颜色率的相似度>阈值;\nC.颜色多样性相差不大,即颜色多样性的相似度>阈值;\nD.均值颜色方格图的相似度>阈值\n(E.缩略图标题相同)\n其中,条件E为可选条件,条件B、C、D中的阈值可能相同也可能不同。经过实验表明,上述重复缩略图判断可以较好地实现模糊排重效果,能够保证高排全率和低误排率。\n由上可知,模糊排重不同于基于编码和哈希表的精确排重,模糊排重不但能够排除完全相同的缩略图,而且能够处理相似的缩略图,并可以通过调节阈值对相似程度进行控制。\n在实际应用中,精确排重和模糊排重可以单独使用,但优选的方法是将所述精确排重和模糊排重结合起来使用,可以发挥各自的优点,即通过精确排重和模糊排重,达到了较快的处理时间,较高的排全率和较低的误排率,从而降低重复率。\n需要说明的是,上述识别过程是同时利用全局颜色特征和局部颜色特征来识别,这是一种优选的方案,如果仅利用全局颜色特征来识别也符合本发明思想。但如果局部颜色特征即均值颜色方格图也参与识别,则会提高识别率,尤其是在模糊排重过程中,由于均值颜色方格图对图像具有很强的区分力,所以利用该特征能够识别出差别非常小的重复缩略图。例如,假设两幅缩略图的主颜色编号相同,主颜色率和颜色多样性都相差不大,这时通过均值颜色方格图才能区分出是否重复。\nS103,对重复缩略图进行处理。\n根据实际应用情况,对识别出的重复缩略图进行相应处理。例如,直接从数据库中删除所述重复缩略图,或者降低重复缩略图的权重,等等。\n经过上述处理,就能够从大量的缩略图中识别出重复缩略图,从而提高缩略图的整体图像质量。\n针对上述方法,本发明提供了一种识别重复缩略图的装置。参照图3,是所述装置的结构图。所述装置主要包括缩略图分析单元U301、重复识别单元U302、重复处理单元U303。\n所述缩略图分析单元U301用于分析缩略图内容,获取图像的颜色特征。所述颜色特征包括全局颜色特征,还包括局部颜色特征。其中,全局颜色特征包括主颜色编号、主颜色率和颜色多样性,局部颜色特征主要指均值颜色方格图。\n缩略图分析单元U301获取全局颜色特征的方式是:首先,量化颜色空间模型的颜色数;其次,根据所述颜色数,计算缩略图的归一化颜色直方图;再次,遍历所述颜色直方图,将所述颜色直方图中的峰值分量确定为主颜色率,并将峰值对应的序号确定为主颜色编号;将颜色直方图中分量大于等于预置阈值的颜色,确定为缩略图的有效颜色,有效颜色的总数为颜色多样性。\n缩略图分析单元U301获取局部颜色特征的方式是:将缩略图均匀划分为n小块;计算每一小块的均值颜色,得到该缩略图的n维均值颜色方格图。\n重复识别单元U302用于根据所述颜色特征,判断是否存在重复缩略图。根据方法实施例中提供的两种识别方式,所述重复识别单元U302进一步包括精确排重单元U3021,还可以包括模糊排重单元U3022。\n精确排重单元U3021用于识别完全相同的缩略图,利用全局颜色特征值和局部颜色特征值计算缩略图的特征编码,并判断缩略图的特征编码是否相同,如果相同,则为重复缩略图。所述精确排重单元U3021通过以下方式判断缩略图的特征编码是否相同:将缩略图的特征编码作为哈希表的主键;当处理一个缩略图时,判断哈希表中以该缩略图的特征编码为主键的存储位置是否已被占据,如果是,则该缩略图与占据所述存储位置的缩略图重复;如果否,则将该缩略图的标识填入所述存储位置。\n模糊排重单元U3022用于识别相同或相似的缩略图,根据全局颜色特征值和局部颜色特征值计算缩略图的相似度,并判断所述相似度是否符合预置条件,如果符合,则为重复缩略图。所述预置条件包括主颜色编号相同,主颜色率的相似度、颜色多样性的相似度、均值颜色方格图的相似度大于等于预置阈值,还可以包括缩略图的文字信息相同。当同时利用所述预置条件进行重复判断时,能够保证较高的识别率。因此,模糊排重单元U3022不但能够排除完全相同的缩略图,而且能够处理相似的缩略图,并可以通过调节阈值对相似程度进行控制。\n重复处理单元U303用于对识别出的重复缩略图进行处理,例如进行降权或删除等处理。\n图3所示装置中未详述的部分可以参见图1、图2所示方法的相关部分,为了篇幅考虑,在此不再详述。\n实施例二:\n针对由于重复缩略图的存在导致图片或视频搜索结果单调、查准率低、用户体验差的问题,本发明将上述识别重复缩略图的方法应用到搜索引擎中,提供了一种在搜索结果中识别颜色单调缩略图的方法,大大改善了搜索引擎的检索性能,给用户带来更好的使用体验。\n参照图4,是实施例所述在搜索结果中识别重复缩略图的方法流程图。\nS401,分析搜索引擎系统中的缩略图内容,获取图像的颜色特征。所述颜色特征包括全局颜色特征和局部颜色特征。具体分析过程可参照图2所示流程,在此不再详述。\nS402,将缩略图的颜色特征添加到搜索引擎的索引数据中。\n所述索引数据用于搜索引擎在进行查询词检索时提供相关的索引功能,所述索引数据包括历史数据和新数据。对于历史数据,在索引数据中增加四个字段用于保存四种颜色特征,并将通过上述步骤得到的颜色特征添加到索引数据的相应字段。\n所述新数据是指搜索引擎每天增加的新数据,这些新数据是搜索引擎通过网络爬虫等工具抓取或从专业网站直接获取的。在新数据入库时,需要按照S401分析新的缩略图得到其颜色特征,保证对新数据的过滤处理。\nS403,根据搜索关键词查询时,读取所述索引数据中的颜色特征,然后根据所述颜色特征判断是否为重复缩略图。\n一种优选的方法是使用双重排重方法,在线搜索时使用精确排重对全部搜索结果进行重复识别,然后对前几页搜索结果进行基于相似度的模糊排重。具体识别过程如前所述,在此不再详述。\nS404,将搜索结果中的重复缩略图进行降权处理,排到搜索结果列表的尾部;或者删除重复的缩略图。\n上述在搜索结果中识别重复缩略图的方法,由于将重复结果进行降权或删除处理,使得结果页面更加丰富多样,并提高了搜索引擎的搜索性能,提升了用户体验。\n针对所述方法,本发明实施例还提供了一种在搜索结果中识别重复缩略图的装置。参照图5,是实施例所述的装置结构图。所述装置主要包括缩略图分析单元U501、重复识别单元U502、重复处理单元U503和数据制作单元U504。\n其中,缩略图分析单元U501、重复识别单元U502、重复处理单元U503的功能如图3装置所述的缩略图分析单元U301、重复识别单元U302、重复处理单元U303相同,在此不再详述。\n所述数据制作单元U504用于将缩略图的颜色特征添加到搜索引擎的索引数据中。搜索引擎的索引数据增加四个字段用于保存四种颜色特征,数据制作单元U504将通过缩略图分析单元U501处理的颜色特征添加到索引数据的相应字段。颜色单调缩略图识别单元U502在进行识别处理时,读取索引数据中的颜色特征,然后根据所述颜色特征判断是否为颜色单调缩略图。\n图5所示装置中未详述的部分可以参见图4所示方法的相关部分,为了篇幅考虑,在此不再详述。\n以上对本发明所提供的一种识别重复缩略图的方法、装置及在搜索引擎中的应用,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
法律信息
- 2010-07-28
- 2008-12-17
- 2008-10-22
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |