著录项信息
专利名称 | 处理图片的方法、装置以及搜索图片的方法 |
申请号 | CN200810116455.4 | 申请日期 | 2008-07-10 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2008-11-19 | 公开/公告号 | CN101308508 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 北京搜狗科技发展有限公司 | 申请人地址 | 北京市海淀区中关村东路1号院9号楼搜狐网络大厦9层01房间
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 北京搜狗科技发展有限公司 | 当前权利人 | 北京搜狗科技发展有限公司 |
发明人 | 贾梦雷;张阔 |
代理机构 | 北京集佳知识产权代理有限公司 | 代理人 | 蒋贤起;逯长明 |
摘要
本发明公开了一种处理图片标题的方法,包括:设置无效字段识别规则;根据所述识别规则,识别页面网站中图片标题包含的无效字段;去除所述页面网站中图片标题中所包含的所述无效字段。还提供了一种处理图片标题的装置、搜索引擎,还提供了一种搜索图片的方法,本发明实施例具有以下优点:首先,排序效果明显改善。其次,由于搜索结果相关性好,用户体验度提高。
处理图片的方法、装置以及搜索图片的方法\n技术领域\n[0001] 本发明涉及网络技术领域,特别是涉及处理图片的方法、装置以及搜索图片的方法。\n背景技术\n[0002] 对页面中包含的图片内容进行分析和资料提取,是搜索引擎工作的重要内容。但是,现有技术中针对单个页面的页面分析技术,由于缺乏关于某个网站的统计信息,无法有效的去除图片标题中的网站名、论坛名、版面名、版主名、时间、帖子打分等无效字段,由此带来的负面影响有:\n[0003] 1、出现不相关的结果。这是由于查询词命中了无效字段导致,例如查询“凤凰”而图片标题含有“凤凰播报”。这个结果不是搜索用户所需要的结果。\n[0004] 2、相关性好结果的排名靠后。由于无效字段数量众多,导致与图片相关性好的有效信息被淹没在无效字段中,导致计算评分时较低。例如内容为奔驰轿车的图标题为“奔驰飘香网络>>图片中心>>爱车一族”。\n[0005] 3、给用户展现的字段中出现不相关内容,降低了用户体验。\n[0006] 发明人在实现本发明的过程中,发现现有技术中至少存在如下问题:\n[0007] 针对单个页面分析导致搜索结果相关性差,用户体验度低。\n发明内容\n[0008] 有鉴于此,本发明一个或多个实施例的目的在于提供处理图片的方法、装置以及搜索图片的方法,以实现提高搜索结果的相关性,提升用户体验度。\n[0009] 为解决上述问题,本发明实施例提供了一种处理图片标题的方法,包括:\n[0010] 将所有图片的图片标题以图片所在页面的网站为单位划分;\n[0011] 将所述图片标题依分隔符分割成若干个字段;\n[0012] 统计图片标题中所包含的各个字段在同一网站下的各个图片标题中出现的次\n数;\n[0013] 如果所述字段出现的次数达到预置条件,则将所述字段识别为相应网站中的无效字段;\n[0014] 去除所述相应网站中图片标题中所包含的所述无效字段。\n[0015] 还提供了一种处理图片标题的装置,包括:\n[0016] 网站划分单元,用于将所有图片的图片标题以图片所在页面的网站为单位划分;\n[0017] 分隔单元,用于将所述图片标题依分隔符分割成若干个字段;\n[0018] 统计单元,用于统计图片标题中所包含的各个字段在同一网站下的各个图片标题中出现的次数;\n[0019] 识别单元,用于如果所述字段出现的次数达到预置条件,则将所述字段识别为相应网站中的无效字段;\n[0020] 第一去除单元,用于去除所述相应网站中图片标题中所包含的所述无效字段。\n[0021] 还提供了一种搜索图片的方法,包括:\n[0022] 将所有图片的图片标题以图片所在页面的网站为单位划分;\n[0023] 将所述图片标题依分隔符分割成若干个字段;\n[0024] 统计图片标题中所包含的各个字段在同一网站下的各个图片标题中出现的次\n数;\n[0025] 如果所述字段出现的次数达到预置条件,则将所述字段识别为相应网站中的无效字段;\n[0026] 去除所述相应网站中图片标题中所包含的所述无效字段;\n[0027] 获取与查询词相关的图片标题;\n[0028] 输出所述图片标题对应的链接。\n[0029] 与现有技术相比,本发明实施例具有以下优点:\n[0030] 首先,排序效果明显改善。\n[0031] 由于通过无效字段的去除,就减少了无效字段有关的结果出现。由于无效字段代表不相关结果,所以,不相关的结果不会再出现在搜索结果的前列。\n[0032] 与图片相关的有效信息在计算评分时权重更高,有利于真正相关的结果排在前\n面,相关性好的结果排名前移。\n[0033] 其次,由于搜索结果相关性好,用户体验度提高。\n附图说明\n[0034] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。\n[0035] 图1所示,是本发明的处理图片标题的方法的实施例一的流程图;\n[0036] 图2所示,是本发明的处理图片标题的装置的实施例一的框图;\n[0037] 图3所示,是本发明实施例所提供的搜索引擎的实施例一框图;\n[0038] 图4所示,是本发明的搜索图片的方法的实施例一的流程图;\n[0039] 图5所示,是模块A的处理过程的流程图;\n[0040] 图6所示,是模块B的处理过程的流程图。\n具体实施方式\n[0041] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。\n[0042] “无效字段”是指,与图片内容关系较小、无关,或者起干扰作用的字段。例如嵌入标题中的网站名、论坛名,论坛版主为图片帖的打分和版主签名,还有论坛为图片标题自动加上的时间戳等。\n[0043] 无效字段的带来的负面影响包括:\n[0044] 1)进行查询时,会命中与图片无关的无效字段,导致出现不相关的结果;\n[0045] 2)同图片真正相关、有意义的字段被淹没在无效字段当中,没有被搜索到,或者被搜索到的命中率低,导致本来相关的图片评分降低;\n[0046] 3)给用户展现的字段出现不相关内容,降低了用户体验。\n[0047] 图片标题通常包括“页首标题”、“页内标题”、“图片替换文字(alt)”、“图片文字链接(anchor)”等。“图片替换文字”指鼠标移至图片上时浮现的文字。当前主流的图片搜索都是采用图片相关文字进行检索,其中最重要的就是图片标题。因此,图片标题对于图片搜索的相关性至关重要。由于在图片标题中普遍存在着大量的无效字段,这些无效字段的存在,对搜索结果的相关性影响很大。由于图片标题文本较短,放大了对相关性的影响。\n[0048] 本发明的核心思想是根据统计规律,设定判断规则,识别图片标题中的无效字段,建倒排索引时将无效字段从图片标题中去除并放入特定域;在线搜索时,对命中无效字段所在的特定域做降权处理。通过降权处理,使得对无效字段赋以不同的权重,甚至可以对有些无效字段赋权重值为零,免得对相关性高的字段产生不利影响。使得搜索结果的相关性提高,提升了用户体验。\n[0049] 由于无效字段的“无效”是相对于与图片内容的相关性而言的,不是与图片内容相关的文字,但并非与图片毫无关联。而且,考虑到网站名、论坛名、版面名在某些情况下对于某些用户仍是有用信息,因此并未直接将无效字段直接丢弃,而是移入特定域做降权处理。\n[0050] 针对单个页面的页面分析技术,由于缺乏关于某个网站的统计信息,无法有效的去除图片标题中的网站名、论坛名、版面名、版主名、时间、帖子打分等无效字段,由此带来的负面影响有:\n[0051] (1)会命中不相关的结果。这是由于查询命中了无效字段导致,例如查询“凤凰”而图片标题含有“凤凰播报”。\n[0052] (2)相关性高的结果却排名靠后。与图片相关的有效信息被淹没在无效字段中,导致计算评分时较低,例如内容为奔驰轿车的图标题为“奔驰飘香网络>>图片中心>>爱车一族”。\n[0053] (3)给用户展现的字段中出现不相关内容,降低了用户体验。\n[0054] 如图1所示,是本发明的处理图片标题的方法的实施例一,包括:\n[0055] 101、设置无效字段识别规则;\n[0056] 其中,所述设置无效字段识别规则具体为:\n[0057] 如果所述网站的图片标题中包含的字段符合预置条件,则将所述字段设置为无效字段。\n[0058] 其中,所述网站的图片标题中包含的字段符合预置条件具体为:\n[0059] 如果所述字段的出现次数达到预定值,而且所述字段的出现次数与所述网站包含的图片总数之比达到预定值,则所述网站的图片标题中包含的字段符合预置条件;或\n[0060] 如果所述网站包含的图片数量达到预定值,而且所述字段的出现次数与所有字段出现的次数之比达到预定值,则所述网站的图片标题中包含的字段符合预置条件;或\n[0061] 如果所述字段的出现次数或者所述字段的出现次数与所有字段出现的次数之比,达到预定值,并且所述字段分词后的结果表明所述字段属于无效信息,则所述网站的图片标题中包含的字段符合预置条件。\n[0062] 其中,所述字段属于无效信息具体为:\n[0063] 所述字段包含:论坛、社区、相册、注册、日志、贴图、浏览或转载。\n[0064] 其中,可以通过反向设定有效字段的识别条件,将所有非有效字段都设置为无效字段,则所述设置无效字段识别规则具体为:\n[0065] 如果所述字段的出现次数少于预设阀值,则将所述字段作为有效字段。\n[0066] 其中,在所述设置无效字段识别规则之前,还包括:\n[0067] 将所有图片的标题以页面所在网站为单位,进行划分。\n[0068] 其中,在进行划分之后,还包括:\n[0069] 对于图片标题中中括号内的字段,从图片标题中去除;\n[0070] 将所述图片标题依分隔符分割成若干个字段;\n[0071] 统计同一网站下图片标题中所包含的各个字段出现的次数;\n[0072] 则根据所述识别规则,识别网站中图片标题包含的无效字段具体为:\n[0073] 如果所述字段出现的次数达到预置条件,则将所述字段识别为无效字段。\n[0074] 102、根据所述识别规则,识别页面网站中图片标题包含的无效字段;\n[0075] 103、去除所述页面网站中图片标题中所包含的所述无效字段。\n[0076] 其中,在去除所述网站中图片标题中所包含的所述无效字段之后,还包括:\n[0077] 建立所述页面网站与所述无效字段的对应关系。\n[0078] 其中,在建立所述页面网站与所述无效字段的对应关系之后,还包括:\n[0079] 对于图片标题中中括号内的字段,保存在特定域;\n[0080] 对所述图片所在的页面网站,根据页面网站与所述无效字段的对应关系,查找所述图片标题中的无效字段,将所述无效字段移动到特定域;\n[0081] 将所述图片标题中剩余的文字作为图片标题。\n[0082] 其中,去除无效字段后,可以向用户提供体验度更高的查询过程,即:去除所述页面网站中图片标题中所包含的所述无效字段之后,还包括:\n[0083] 获取与查询词相关的图片标题;\n[0084] 输出所述图片标题对应的链接。\n[0085] 其中,将所述图片标题中剩余的文字作为图片标题之后,还包括:\n[0086] 将无效字段所在的特定域进行降权处理;\n[0087] 获取与查询词相关的图片标题;\n[0088] 输出所述图片标题对应的链接。\n[0089] 通过上述过程,可以取得以下有益技术效果:\n[0090] 首先,排序效果明显改善。\n[0091] 由于通过无效字段的去除,就减少了无效字段有关的结果出现。由于无效字段代表不相关结果,所以,不相关的结果不会再出现在搜索结果的前列。\n[0092] 与图片相关的有效信息在计算评分时权重更高,有利于真正相关的结果排在前\n面,相关性好的结果排名前移。\n[0093] 其次,用户体验度提高。\n[0094] 由于给用户展现的文字中不相关的内容减少,从而改善了用户体验。\n[0095] 如图2所示,是本发明的处理图片标题的装置的实施例一,包括:\n[0096] 设置单元201,用于设置无效字段识别规则;\n[0097] 其中,所述设置无效字段识别规则具体为:\n[0098] 如果所述网站的图片标题中包含的字段符合预置条件,则将所述字段设置为无效字段。\n[0099] 其中,所述设置无效字段识别规则具体为:\n[0100] 如果所述字段的出现次数少于预设阀值,则将所述字段作为有效字段。\n[0101] 其中,所述网站的图片标题中包含的字段符合预置条件具体为:\n[0102] 如果所述字段的出现次数达到预定值,而且所述字段的出现次数与所述网站包含的图片总数之比达到预定值,则所述网站的图片标题中包含的字段符合预置条件;或\n[0103] 如果所述网站包含的图片数量达到预定值,而且所述字段的出现次数与所有字段出现的次数之比达到预定值,则所述网站的图片标题中包含的字段符合预置条件;或\n[0104] 如果所述字段的出现次数或者所述字段的出现次数与所有字段出现的次数之比,达到预定值,并且所述字段分词后的结果表明所述字段属于无效信息,则所述网站的图片标题中包含的字段符合预置条件。\n[0105] 其中,所述字段属于无效信息具体为:\n[0106] 所述字段包含:论坛、社区、相册、注册、日志、贴图、浏览或转载。\n[0107] 识别单元202,用于根据所述识别规则,识别页面网站中图片标题包含的无效字段;\n[0108] 第一去除单元203,用于去除所述页面网站中图片标题中所包含的所述无效字段。\n[0109] 通过上述过程,可以取得以下有益技术效果:\n[0110] 首先,排序效果明显改善。\n[0111] 由于通过无效字段的去除,就减少了无效字段有关的结果出现。由于无效字段代表不相关结果,所以,不相关的结果不会再出现在搜索结果的前列。\n[0112] 与图片相关的有效信息在计算评分时权重更高,有利于真正相关的结果排在前\n面,相关性好的结果排名前移。\n[0113] 其次,用户体验度提高。\n[0114] 由于给用户展现的文字中不相关的内容减少,从而改善了用户体验。\n[0115] 其中,上述实施例中,还可以包括:\n[0116] 网站划分单元,用于在所述设置无效字段识别规则之前,将所有图片的标题以页面所在网站为单位,进行划分。\n[0117] 其中,除了网站划分单元,还可以包括:\n[0118] 第二去除单元,用于在进行划分之后,对于图片标题中中括号内的字段,从图片标题中去除;\n[0119] 分隔单元,用于将所述图片标题依分隔符分割成若干个字段;\n[0120] 统计单元,用于统计同一网站下图片标题中所包含的各个字段出现的次数;\n[0121] 所述识别单元具体为:\n[0122] 第二识别单元,用于如果所述字段出现的次数达到预置条件,则将所述字段识别为无效字段。\n[0123] 其中,上述实施例还可以包括:\n[0124] 建立单元,用于在去除所述网站中图片标题中所包含的所述无效字段之后,建立所述页面网站与所述无效字段的对应关系。\n[0125] 其中,上述实施例在包括建立单元的基础上,还可以包括:\n[0126] 保存单元,用于在建立所述页面网站与所述无效字段的对应关系之后,对于图片标题中中括号内的字段,保存在特定域;\n[0127] 移动单元,用于对所述图片所在的页面网站,根据页面网站与所述无效字段的对应关系,查找所述图片标题中的无效字段,将所述无效字段移动到特定域;\n[0128] 处理单元,用于将所述图片标题中剩余的文字作为图片标题。\n[0129] 其中,还包括:\n[0130] 第一获取单元,用于去除所述页面网站中图片标题中所包含的所述无效字段之\n后,获取与查询词相关的图片标题;\n[0131] 第一输出单元,用于输出所述图片标题对应的链接。\n[0132] 其中,与上述直接根据图片标题中包含的有效字段进行索引匹配不同,还可以将无效字段进行降权处理后,再进行索引匹配,就还可以包括:\n[0133] 降权单元,用于将所述图片标题中剩余的文字作为图片标题之后,将无效字段所在的特定域进行降权处理;\n[0134] 第二获取单元,用于获取与查询词相关的图片标题;\n[0135] 第二输出单元,用于输出所述图片标题对应的链接。\n[0136] 通过上述过程,可以取得以下有益技术效果:\n[0137] 首先,排序效果明显改善。\n[0138] 由于通过无效字段的去除,就减少了无效字段有关的结果出现。由于无效字段代表不相关结果,所以,不相关的结果不会再出现在搜索结果的前列。\n[0139] 与图片相关的有效信息在计算评分时权重更高,有利于真正相关的结果排在前\n面,相关性好的结果排名前移。\n[0140] 其次,用户体验度提高。\n[0141] 由于给用户展现的文字中不相关的内容减少,从而改善了用户体验。\n[0142] 如图3所示,是本发明实施例所提供的搜索引擎的实施例一,包括本发明的处理图片标题的装置实施例所公开的任一项装置。\n[0143] 如图4所示,是本发明的搜索图片的方法的实施例一,包括:\n[0144] 401、设置无效字段识别规则;\n[0145] 其中,所述设置无效字段识别规则具体为:\n[0146] 如果所述页面网站的图片标题中包含的字段符合预置条件,则将所述字段设置为无效字段。\n[0147] 其中,在所述设置无效字段识别规则之前,还包括:\n[0148] 将所有图片的标题以页面所在网站为单位,进行划分。\n[0149] 其中,还包括:\n[0150] 对于图片标题中中括号内的字段,从图片标题中去除;\n[0151] 将所述图片标题依分隔符分割成若干个字段;\n[0152] 统计同一网站下图片标题中所包含的各个字段出现的次数;\n[0153] 则根据所述识别规则,识别网站中图片标题包含的无效字段具体为:\n[0154] 如果所述字段出现的次数达到预置条件,则将所述字段识别为无效字段。\n[0155] 402、根据所述识别规则,识别页面网站中图片标题包含的无效字段;\n[0156] 403、去除所述页面网站中图片标题中所包含的所述无效字段;\n[0157] 其中,在去除所述网站中图片标题中所包含的所述无效字段之后,还包括:\n[0158] 建立所述页面网站与所述无效字段的对应关系。\n[0159] 其中,在建立所述页面网站与所述无效字段的对应关系之后,还包括:\n[0160] 对于图片标题中中括号内的字段,保存在特定域;\n[0161] 对所述图片所在的页面网站,根据页面网站与所述无效字段的对应关系,查找所述图片标题中的无效字段,将所述无效字段移动到特定域;\n[0162] 将所述图片标题中剩余的文字作为图片标题。\n[0163] 其中,将所述图片标题中剩余的文字作为图片标题之后,还包括:\n[0164] 将无效字段所在的特定域进行降权处理;\n[0165] 获取与查询词相关的图片标题;\n[0166] 输出所述图片标题对应的链接。\n[0167] 404、获取与查询词相关的图片标题;\n[0168] 405、输出所述图片标题对应的链接。\n[0169] 通过上述过程,可以取得以下有益技术效果:\n[0170] 首先,排序效果明显改善。\n[0171] 由于通过无效字段的去除,就减少了无效字段有关的结果出现。由于无效字段代表不相关结果,所以,不相关的结果不会再出现在搜索结果的前列。\n[0172] 与图片相关的有效信息在计算评分时权重更高,有利于真正相关的结果排在前\n面,相关性好的结果排名前移。\n[0173] 其次,用户体验度提高。\n[0174] 由于给用户展现的文字中不相关的内容减少,从而改善了用户体验。\n[0175] 与上述各个实施例相适应,本发明提供了一种搜索图片的方法的实施例二,本实施通过三个功能模块的划分来说明本实施例的工作过程,对于所属领域的技术人员而言,还可以采用其他的模块划分方式,都可以实现本发明的技术文字,本发明的三个模块及其工作过程分别是:\n[0176] A.识别无效字段模块。\n[0177] 本模块的作用是根据属于同一个网站的图片标题的统计信息,找到这个网站所对应的无效字段。例如“www.kongfz.com”这个网站下所有图片的标题都含有“孔夫子旧书网”,从统计意义上可知,这个字段对了解图片本身内容的贡献几乎为零。于是,可以将“孔夫子旧书网”作为网站“www.kongfz.com”所对应的无效字段。\n[0178] 如前所述,广义的图片标题分多种,包括“页首标题”、“页内标题”、“图片替换文字(alt)”、“图片文字链接(anchor)”等。参考图5所示,是模块A的处理过程。\n[0179] 501.将所有图片的图片标题以页面网站为单位分成若干组。\n[0180] 一般情况下,图片自身所属的网站和图片所在页面的网站不一定相同。而图片标题是从图片所在的页面提取的,因此判别无效字段要按照页面网站来进行。即以网站为单位,找到属于同一个网站的图片标题所对应的无效字段。\n[0181] 针对单个页面的页面分析技术,由于缺乏关于某个网站的统计信息,无法有效的去除图片标题中的网站名、论坛名、版面名等无效字段。举例来说,属于“凤凰播报”这个网站的页面,都带有“凤凰播报”字段,仅对单个页面来说,我们无法判断其是否为无效字段。\n只有当网站为单位时,我们才能发现属于这个网站的页面都含有此字段,所以,“凤凰播报”字段对于区分同属于这个网站的众多页面没有贡献。用户感兴趣的都是单个页面,由此可知,此字段有效信息含量极少,属于无效字段。\n[0182] 502.去除中括号内的字段。\n[0183] 图片标题中,中括号“[...]”、“【...】”和“『...』”中的内容可总结为以下几种情况:\n[0184] a)时间。例:[2006-10-15]\n[0185] b)版主签名。例:[人间阅]、[幽闲之心阅]\n[0186] c)类别标志。例:[推荐]、[原创]、[转帖]、[分享]、[组图]、[灌水]\n[0187] d)加分。例:[精华+30]\n[0188] e)组图张数。例:[16P]、[5p]\n[0189] f)网站、论坛、板块名。例:[八卦江湖]、[明星]\n[0190] 在绝大部分情况下,这些文字同图片内容的关系极小,可作为无效字段去除。\n[0191] 503.将去除中括号内文字后的图片标题依分隔符分成若干个字段,并统计同一网站下各个字段出现的字数。(分隔符指逗号和顿号等连接符之外的其他标点符号。)\n[0192] 将标题恰当的分隔开后再判别无效字段使得能够对较短的字串进行操作,而不是较长的标题整体。\n[0193] 步骤504.设定规则,识别无效字段。\n[0194] 根据图片所在网站的实际情况,具体规则可以是:\n[0195] a)出现次数少于3次,则认为不是无效字段。\n[0196] b)出现次数超过100,且与该网站下的图片总数之比达到10%,则判为无效字段。\n[0197] c)出现次数达到40,且与该网站下的图片总数之比达到30%,则判为无效字段。\n[0198] d)网站足够大(该网站被收录的图达到50张),且该字段的出现比例达到了\n50%,则判为无效字段。\n[0199] e)出现次数超过了5次,且该字段分词后的结果满足下面条件之一,则判为无效字段:\n[0200] i.包含下列词项之一:“论坛”、“社区”、“相册”“注册”、“日志”、“贴图”、“浏览”、“转载”。\n[0201] ii.结尾为下列词项之一:“阅”、“网”、“区”、“版”。\n[0202] 对上述规则进行归纳,可以得到以下规则:\n[0203] 对某一网站,若某一字段:\n[0204] 1)出现次数过少,符合预置条件,则认为是有效字段,不是无效字段。\n[0205] 例如网站“www.kongfz.com”里的某图片标题含字段“论语正义”,该字段只出现过\n2次,被认为不是无效字段。\n[0206] 2)出现次数过多,符合次数有关的预置条件,且与该网站下的图片总数之比达到一定程度,符合比例有关的预置条件,则判为无效字段。\n[0207] 例如网站“www.kongfz.com”里的部分图片标题含字段“孔夫子旧书网”,超过\n1000次,而且与库中收录的该网站下的图片总数之比达到了10%,则该字段被认为是无效字段。\n[0208] 3)出现次数达到一定数量,符合次数有关的预置条件,且与该网站下的图片总数之比达到相当高程度,符合比例有关的预置条件,则判为无效字段。\n[0209] 例如网站“gcforum.org”里有部分图片标题含字段“动漫贴图”,达到53次,而库中收录该网站图片为100张,比例达到53%,则该字段被认为是无效字段。\n[0210] 4)网站足够大,指该网站被收录的图足够多,符合数量有关的预置条件,且该字段的出现比例达到了一定程度,此比例指的是该字段出现的次数与所有字段的总次数之比,则判为无效字段。\n[0211] 例如网站“jk360.bolaa.com”里有部分图片标题含字段“博客手拉手”,为15次(不满足上面的数量条件),库中收录该网站图片为15张(达到“足够大”的标准),而且此网站下的图片一共只有4个标题,共4个字段,达到25%的比例。因此,根据上述判断规则,可以认为该字段为无效字段。\n[0212] 5)出现次数超过了若干次,或者出现比例达到了若干比例,且该字段分词后的结果满足下面条件之一,则判为无效字段:\n[0213] 例如:\n[0214] 包含下列词语之一:“论坛”、“社区”、“相册”“注册”、“日志”、“贴图”、“浏览”、“转载”。\n[0215] i.如网站“bbs.arsenal.com.cn”里的图片标题含字段“枪手社区”,网站\n“niweiqiu.photo.ipart.cn”里图片标题含字段“免费相册”,都是无效字段。\n[0216] 结尾为下列词项之一:“阅”、“网”、“区”、“版”。\n[0217] ii.如网站“www.bbs818.com”里图片标题含“华夏生意网”,网站“www.\ncoolshrimp.com”里图片标题含“讨论分享区”,是无效字段。\n[0218] 根据上述规则,可以识别出网站“www.kongfz.com”的无效字段有“孔夫子旧书网”。\n[0219] 最后,经过上述步骤,识别无效字段模块可以得到“页面网站-无效字段”列表。其中,一个网站可能对应多个无效字段。该列表包括:页面网站和页面网站所包含的全部无效字段,以及页面网站与所述页面网站所包含的全部无效字段的对应关系。该列表可以包括数量众多的页面网站,以及这些页面网站与各自的无效字段的对应关系。\n[0220] 在上述识别规则中,通过将字段出现次数、字段出现比例、网站收录图数、字段包含的词语以及字段末尾字等综合考虑,有助于识别无效字段的精确度,提高召回率。\n[0221] B.数据生成模块\n[0222] 在生成数据时,参考图6所示,是模块B的处理过程。对每一张图的图片标题进行如下处理:\n[0223] 601.将中括号内的字段移至特定域。\n[0224] 对每一张图,把中括号里的字段从标题中删除,放入关于这张图的“无效字段区”这个字域(与“标题”、“周边文字”等相当的概念)。如果此图的链接是属于网站“www.kongfz.com”的话,并且图片标题中有字段“孔夫子旧书网”,将该字段从标题中删除,放入“无效字段区”。\n[0225] 602.根据图片的页面链接,在“页面网站-无效字段”列表查找,如果在图片标题中发现有无效字段,则将无效字段移至特定域。\n[0226] 603.对于去除无效字段后的剩余的文字,填入数据文件中图片标题所在的域。\n[0227] 经过数据生成模块,可以将输入的每一张图的相关信息,处理成不包含无效字段的数据文件和索引文件而输出。\n[0228] C.计算评估模块\n[0229] 在线搜索计算评分时,对无效字段所在的特定域降权处理。\n[0230] 以往的无效字段的判别往往是在页面分析中进行的(一般算作垃圾字段而去\n除),但类似“凤凰播报”、“爱车一族”这样的同特定网站、论坛相关的无效字段,只有在获取了整个网站页面的统计信息后才能判别,要在页面分析之后进行,这是本发明区别其他反垃圾技术的要点。\n[0231] 在线搜索时,如果搜索词命中了无效字段所在的特定域,则给一极低的分值。\n[0232] 这样,当用户想搜特定网站、版面或者版主发过的帖子时,仍然可以找到,而在一般查询时,这些信息又不会对真正应该排在前面的图片造成影响。\n[0233] 通过计算评估模块,可以将输入的索引数据和查询词,进行无效字段降权,去除页面标题中的无效字段,输出相应的排序结果。\n[0234] a)用户搜索“论语正义”时,由于“孔夫子旧书网”从标题中移出,“论语正义”的标题比“论语正义--孔夫子旧书网”的得分更高,从而此图片的排名提高,避免了某些不太相关的图片排名过于靠前。\n[0235] b)用户搜索“孔夫子”时,含“孔夫子旧书网”的图片因为没有命中标题,只是命中了“无效字段区”,因此得分降低,其排名次于代表孔夫子的画像、雕像的图片。\n[0236] 也就是说,利用本发明的实施例,在搜“论语正义”时,看不到“孔夫子旧书网”字样;在搜“孔夫子”时,排在前面的图标题都是“孔夫子***”,而和卖书的这个网站无关。\n[0237] 另外,本实施例的上述各个过程可以相应地应用于处理图片的方法和装置中,也可以运用于搜索引擎中。\n[0238] 通过上述过程,可以取得以下有益技术效果:\n[0239] 首先,排序效果明显改善。\n[0240] 由于通过无效字段的去除,就减少了无效字段有关的结果出现。由于无效字段代表不相关结果,所以,不相关的结果不会再出现在搜索结果的前列。\n[0241] 与图片相关的有效信息在计算评分时权重更高,有利于真正相关的结果排在前\n面,相关性好的结果排名前移。\n[0242] 其次,用户体验度提高。\n[0243] 由于给用户展现的文字中不相关的内容减少,从而改善了用户体验。\n[0244] 通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件方式来实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。\n[0245] 以上所述的本发明实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的保护范围之内。
法律信息
- 2011-11-02
- 2009-01-14
- 2008-11-19
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2005-10-26
|
2005-05-30
| | |
2
| | 暂无 |
1998-12-02
| | |
3
| |
2006-10-25
|
2006-05-29
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |