著录项信息
专利名称 | 一种实现信息搜索的方法及系统 |
申请号 | CN200610127662.0 | 申请日期 | 2006-09-05 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2008-03-12 | 公开/公告号 | CN101140573 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 阿里巴巴公司 | 申请人地址 | 英属开曼群岛大开曼乔治敦
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 阿里巴巴集团控股有限公司 | 当前权利人 | 阿里巴巴集团控股有限公司 |
发明人 | 吴泳铭;梅坚;余斯恒;王磊;张立中 |
代理机构 | 北京同达信恒知识产权代理有限公司 | 代理人 | 魏杉 |
摘要
本发明公开了一种实现信息搜索的方法,用以解决现有技术中存在的用户搜索信息时,需要根据用户输入信息进行多次搜索,还需要将搜索后获得的信息进行相关性分析才能提供给用户,不仅操作繁琐,而且查找效率低下的问题。该方法包括:接收发布信息的用户输入的信息及对应的关键词;对所述关键词进行分词处理获得一个新的词,并在信息库中建立该词的相关信息与所述用户输入的信息之间的关联关系;以及在搜索信息时,对用户输入的关键词进行分词处理获得一个新的词,利用该词的相关信息与所述信息库中词的相关信息进行匹配,并将信息库中匹配成功的所述词的相关信息所关联的信息提供给用户。本发明同时公开了一种提供用户搜索的系统。
1.一种实现信息搜索的方法,其特征在于,包括如下步骤:
接收发布信息的用户输入的信息及对应的关键词;
对所述关键词进行分词处理后,对应于分词处理后获得的词分别生成相应的哈希Hash代码;
根据所述Hash代码,将分词处理后获得的词进行排序获得第一新词;并
在信息库中建立该第一新词的相关信息与所述用户输入的信息之间的关联关系;以及
在搜索信息时,对搜索信息的用户输入的搜索关键词进行分词处理后,对应于对搜索关键词进行分词处理后获得的词分别生成相应的哈希Hash代码;
根据对应于对搜索关键词进行分词处理后获得的词分别生成的Hash代码,将对搜索关键词进行分词处理后获得的词进行排序获得第二新词;
利用该第二新词的相关信息与所述信息库中词的相关信息进行匹配,并将信息库中匹配成功的词的相关信息所关联的信息提供给用户。
2.如权利要求1所述的方法,其特征在于,所述第一新词和第二新词的相关信息为该词本身;或者,为能够唯一标识该词的索引。
3.如权利要求1所述的方法,其特征在于,按照对应于对发布信息的用户输入的关键词进行分词处理后获得的词分别生成的Hash代码值由小到大的顺序,将对发布信息的用户输入的关键词进行分词处理后获得的词进行排列获得第一新词;以及
按照对应于对搜索关键词进行分词处理后获得的词分别生成的Hash代码值由小到大的顺序,将对发布信息的用户输入的关键词进行分词处理后获得的词进行排列获得第二新词。
4.如权利要求1所述的方法,其特征在于,对排序后获得的第一新词生成一个Hash代码,并将该Hash代码作为第一新词的索引;
对排序后获得的第二新词生成一个Hash代码,并将该Hash代码作为第二新词的索引。
5.如权利要求2所述的方法,其特征在于,在信息库中建立第一新词的索引与用户输入的信息的关联关系时,先判断是否已存在相同的索引,并且在存在相同的索引时,直接将用户输入的信息关联所述索引。
6.一种实现信息搜索的系统,其特征在于,包括:
信息处理装置,用于接收发布信息的用户输入的信息及对应的关键词,对所述关键词进行分词处理后,对应于分词处理后获得的词分别生成相应的哈希Hash代码,根据所述Hash代码将分词处理后获得的词进行排序获得第一新词,并在信息库中建立该第一新词的相关信息与所述用户输入的信息之间的关联关系;
信息搜索装置,用于对搜索信息的用户输入的搜索关键词进行分词处理后,对应于对搜索关键词进行分词处理后获得的词分别生成相应的哈希Hash代码,根据对应于对搜索关键词进行分词处理后获得的词分别生成的Hash代码,将对搜索关键词进行分词处理后获得的词进行排序获得第二新词,利用该第二新词的相关信息与所述信息库中词的相关信息进行匹配,并将信息库中匹配成功的词的相关信息所关联的信息提供给用户。
7.如权利要求6所述的系统,其特征在于,所述信息处理装置包括:
接收单元,用于接收发布信息的用户输入的信息及对应的关键词;
处理单元,用于对接收单元接收到的关键词进行分词处理,对应于分词处理后获得的词分别生成相应的哈希Hash代码,根据所述Hash代码将分词处理后获得的词进行排序获得第一新词,并在信息库中建立该第一新词的相关信息与所述用户输入的信息之间的关联关系。
8.如权利要求6所述的系统,其特征在于,所述信息搜索装置包括:
搜索单元,用于对搜索信息的用户输入的搜索关键词进行分词处理,对应于对搜索关键词进行分词处理后获得的词分别生成相应的哈希Hash代码,根据对应于对搜索关键词进行分词处理后获得的词分别生成的Hash代码,将对搜索关键词进行分词处理后获得的词进行排序获得第二新词,利用该第二新词的相关信息与所述信息库中词的相关信息进行匹配;
输出单元,用于将搜索单元在所述信息库中匹配成功的词的相关信息所关联的信息提供给用户。
技术领域\n本发明涉及计算机及通信技术领域,尤其涉及一种实现信息搜索的方法及系统。\n背景技术\n随着网络技术的发展,当用户希望从众多网络信息中获得到自己关心的信息时,用户只需要登录搜索系统,输入自己关心的信息的关键词,搜索系统将根据用户输入的关键词检索出关联的信息反馈给用户。\n在搜索系统中预先记录了发布信息的用户提供的信息,并建立了与该信息对应的索引文件,当接收到用户的搜索请求后,系统将自动根据用户输入的关键词查询索引文件,并将查找到的与关键词匹配的索引文件对应的信息发送给用户。\n参阅图1所示,现有技术中对发布信息的用户提供的信息的处理过程如下:\n步骤101、当发布信息的用户输入信息及该信息对应的关键词后,记录用户输入的信息和关键词。\n步骤102、将记录的关键词进行分词处理。\n步骤103、分别对分词处理后生成的每一个词建立一个索引,并将每一个索引关联到用户输入的信息上。\n参阅图2所示,现有技术中对用户搜索信息的处理过程如下:\n步骤201、当用户输入查询信息的关键词后,对该关键词进行分词处理。\n步骤202、根据分词处理后的每一个词对应的索引分别查询到匹配的信息。\n步骤203、将查询到的信息中的相同信息进行合并。\n步骤204、分析经过合并的信息与用户输入关键词的相关度,并根据相关度将所述信息进行排序后提供给用户。\n采用现有技术的方法,根据用户输入的关键词进行查找后,将查找到的结果进行合并,并将合并后的结果与用户输入的关键词进行相关性分析找出最相关的结果提供给用户。例如:当用户输入查询关键词“北京鲜花”后,系统进行分词处理,生成“北京”和“鲜花”两个词,然后根据“鲜花”对应的索引找出所有包含“鲜花”的信息,再根据“北京”对应的索引找出所有包含“北京”的信息,将查找到的信息中包含的相同信息进行合并,并找出合并后的信息中同时包含这两个词的信息,最后对该信息进行相关性判断,获得最相关的结果提供给用户。\n采用上述方法,发布信息的用户输入的关键字是“北京鲜花”,搜索信息的用户输入的是“鲜花北京”或“北京的鲜花”,则用户发布的信息可能不会被提供给搜索信息的用户,搜索信息的结果和时间与输入关键词的顺序有关;当用户所输入的查询词包含多个词时,需要进行多次查询,并对查询到的多个结果进行合并,还需要将合并结果进行相关性分析才能将分析得到的结果提供给用户,不仅处理繁琐,而且查找效率低下。\n发明内容\n本发明提供一种处理用户搜索的方法及系统,用以解决现有技术中存在的用户搜索信息时,需要根据用户输入的多个关键词分别进行搜索,还需要将搜索后获得的信息进行合并及进行相关性分析后才能提供给用户,以及搜索信息的时间和搜索结果依赖于用户输入的关键词的顺序,不仅操作繁琐,而且查找效率低下的问题。\n本发明提供以下技术方案:\n一种实现信息搜索的方法,包括如下步骤:\n接收发布信息的用户输入的信息及对应的关键词;\n对所述关键词进行分词处理后,对应于分词处理后获得的词分别生成相应的哈希Hash代码;\n根据所述Hash代码将分词处理后获得的词进行排序获得第一新词;并在信息库中建立该第一新词的相关信息与所述用户输入的信息之间的关联关系;以及\n在搜索信息时,对搜索信息的用户输入的搜索关键词进行分词处理后,对应于对搜索关键词进行分词处理后获得的词分别生成相应的哈希Hash代码;\n根据对应于对搜索关键词进行分词处理后获得的词分别生成的Hash代码,将对搜索关键词进行分词处理后获得的词进行排序获得第二新词;\n利用该第二新词的相关信息与所述信息库中词的相关信息进行匹配,并将信息库中匹配成功的所述词的相关信息所关联的信息提供给用户。\n其中,所述词的相关信息为该词本身;或者,所述词的相关信息为能够唯一标识该词的索引。\n其中,按照对应于对发布信息的用户输入的关键词进行分词处理后获得的词分别生成的Hash代码值由小到大的顺序,将对发布信息的用户输入的关键词进行分词处理后获得的词进行排列获得第一新词;以及\n按照对应于对搜索关键词进行分词处理后获得的词分别生成的Hash代码值由小到大的顺序,将对发布信息的用户输入的关键词进行分词处理后获得的词进行排列获得第二新词。\n进一步,对排序后获得的第一新词生成一个Hash代码,并将该Hash代码作为该第一新词的索引;对排序后获得的第二新词生成一个Hash代码,并将该Hash代码作为第二新词的索引。\n在信息库中建立第一新词的索引与用户输入的信息的关联关系时,先判断是否已存在相同的索引,并且在存在相同的索引时,直接将用户输入的信息关联所述索引。\n一种实现信息搜索的系统,包括:\n信息处理装置,用于接收发布信息的用户输入的信息及对应的关键词,对所述关键词进行分词处理后,对应于分词处理后获得的词分别生成相应的哈希Hash代码,根据所述Hash代码将分词处理后获得的词进行排序获得第一新词,并在信息库中建立该第一新词的相关信息与所述用户输入的信息之间的关联关系;\n信息搜索装置,用于对搜索信息的用户输入的搜索关键词进行分词处理后,对应于对搜索关键词进行分词处理后获得的词分别生成相应的哈希Hash代码,根据对应于对搜索关键词进行分词处理后获得的词分别生成的Hash代码,将对搜索关键词进行分词处理后获得的词进行排序获得第二新词,利用该第二新词的相关信息与所述信息库中词的相关信息进行匹配,并将信息库中匹配成功的词的相关信息所关联的信息提供给用户。\n较佳的,所述信息处理装置包括:\n接收单元,用于接收发布信息的用户输入的信息及对应的关键词;\n处理单元,用于对接收单元接收到的关键词进行分词处理,对应于分词处理后获得的词分别生成相应的哈希Hash代码,根据所述Hash代码将分词处理后获得的词进行排序获得第一新词,并在信息库中建立该第一新词的相关信息与所述用户输入的信息之间的关联关系。\n所述信息搜索装置包括:\n搜索单元,用于对搜索信息的用户输入的搜索关键词进行分词处理,对应于对搜索关键词进行分词处理后获得的词分别生成相应的哈希Hash代码,根据对应于对搜索关键词进行分词处理后获得的词分别生成的Hash代码,将对搜索关键词进行分词处理后获得的词进行排序获得第二新词,利用该第二新词的相关信息与所述信息库中词的相关信息进行匹配;\n输出单元,用于将搜索单元在所述信息库中匹配成功的词的相关信息所关联的信息提供给用户。\n本发明有益效果如下:\n采用本发明的方法,对发布信息的用户输入的对应该信息的关键词进行分词处理获得一个新的词,并建立该词的相关信息与所述用户发布的信息的关联关系,当搜索信息时,对用户输入的关键词进行分词处理只生成一个词,根据该词进行搜索,并将查找到的与该词匹配的词关联的信息提供给用户,采用这种方式,即使用户输入多个关键词进行搜索,也只需要搜索一次;同时,不仅不需要区分输入的关键词的先后顺序,对于搜索后获得的信息不需要进行相关性分析即可提供给用户,还能保证提供给用户的信息与用户输入的关键词的匹配度,不仅简化了对用户搜索时的繁琐处理,同时提高了搜索效率。当对分词处理后获得的新的词建立索引,利用索引进行搜索可进一步提高搜索效率。\n图1为现有技术中对发布信息的用户提供的信息进行处理的示意图;\n图2为现有技术中用户搜索信息时的处理示意图;\n图3为本发明实施例的系统结构示意图;\n图4为本发明实施例一中对用户发布的信息进行处理的流程图;\n图5为本发明实施例一中用户搜索信息的处理流程图;\n图6为本发明实施例二中对用户发布的信息进行处理的流程图;\n图7为本发明实施例二中用户搜索信息的处理流程图。\n具体实施方式\n为了解决现有技术中存在的用户搜索信息时不仅操作繁琐,而且查找效率低下的问题,在本实施例中根据发布信息的用户输入的关键词进行分词处理获得一个新的词,并在信息库中建立该词的相关信息与用户输入的信息之间的关联关系。当用户搜索信息时,根据该用户输入的关键词进行分词处理获得一个新的词,利用该词的相关信息与所述信息库中词的相关信息进行匹配,并将信息库中匹配成功的所述词的相关信息所关联的信息提供给用户。所述词的相关信息可以是词本身,或者为词的索引。\n参阅图3所示,本实施例中的系统包括:信息处理装置310、信息库320和信息搜索装置330。其中,信息处理装置310包括接收单元3101和处理单元3102;信息搜索装置330包括搜索单元3301和输出单元3302。\n信息处理装置310中的接收单元3101用于接收发布信息的用户输入的信息及该信息的关键词,并将所述信息及关键词传送给处理单元3102,以及将所述信息传送到信息库320;处理单元3102用于对用户输入信息的关键词进行分词处理获得一个新的词,以及在信息库320中建立该词与所述用户输入的信息之间的关联关系;或者,进一步对获得的所述新词建立索引,并在信息库320中建立该索引与所述用户输入的信息之间的关联关系。信息库320用于存储发布信息的用户发布的信息以及该信息的关联信息。信息搜索装置330中的搜索单元3301用于对搜索信息的用户输入的关键词进行分词处理获得一个新的词,并利用该词或该词的索引在信息库320中进行匹配,将信息库320中匹配成功的所述词或词的索引所关联的信息传送给输出单元3302;输出单元3302用于将搜索到的匹配信息提供给搜索信息的用户。\n以下通过实施例对采用不同方式实现用户搜索信息进行说明。\n实施例一:\n参阅图4所示,本实施例中对用户发布的信息的处理过程如下:\n步骤401、发布信息的用户输入信息以及对应于该信息的关键词。\n步骤402、对用户输入的关键词进行分词处理,然后采用Hash算法计算经过分词处理后获得的每个词的Hash代码。\n步骤403、根据各Hash代码将分词处理后获得的每个词进行排序生成一个新词,在信息库中记录该词,并对应该词记录用户发布的信息。\n参阅图5所示,本实施例中对用户搜索信息的处理过程如下:\n步骤501、当搜索信息的用户输入搜索关键词时,对用户输入的关键词进行分词处理。\n步骤502、将分词处理后获得的每个词采用Hash算法计算得到对应的Hash代码。\n步骤503、根据各Hash代码将分词处理后获得的每个词进行排序生成一个新词。\n步骤504、在信息库中查找该词,并在查找到该词后,将对应该词记录的用户发布的信息提供给搜索信息的用户。\n采用以上实施例中的方式,当用户输入查询关键词后,对关键词进行分词处理只生成一个新词,并根据该词进行搜索,搜索次数与用户输入关键词的方式无关。例如:当用户输入“北京鲜花”、“鲜花北京”和“北京的鲜花”中的任一项查询信息时,对“北京鲜花”进行分词处理,得到“北京”和“鲜花”两个词,对“鲜花北京”进行分词处理时去除没有实际意义的空格后得到“鲜花”和“北京”两个词,对“北京的鲜花”进行分词处理时去除“的”后,同样得到“北京”和“鲜花”两个词。采用现有的方法,需要分别根据每一个词进行查询,而采用本发明的方法时,对“北京”和“鲜花”分别计算出对应的Hash代码后,可根据各词对应的Hash代码将各词排序后生成一个新词,如“北京”被转换为1,“鲜花”被转换成3,根据Hash代码值由小到大排序后生成新词“北京鲜花”,根据该新词进行查询,只需要查询一次,并且查询后获得的信息可直接提供给用户,简化了查询处理,提高了查询效率。\n实施例二:\n参阅图6所示,本实施例中对用户发布的信息的处理过程如下:\n步骤601、发布信息的用户输入信息以及对应于该信息的关键词。\n步骤602、对用户输入的关键词进行分词处理,然后采用Hash算法计算经过分词处理后获得的每个词的Hash代码。\n步骤603、根据各Hash代码将分词处理后获得的每个词进行排序生成一个新词。\n步骤604、对所述新词采用Hash算法计算出一个Hash代码,将该代码作为该词的索引,并将该索引存储到信息库中,对应该索引记录发布信息的用户输入的信息。\n参阅图7所示,本实施例中对用户搜索信息的处理过程如下:\n步骤701、当搜索信息的用户输入搜索关键词时,对用户输入的关键词进行分词处理。\n步骤702、将分词处理后获得的每个词采用Hash算法计算得到对应的Hash代码。\n步骤703、根据各Hash代码将分词处理后获得的每个词进行排序生成一个新词。\n步骤704、对所述新词采用Hash算法计算出一个Hash代码,将该代码作为该词的索引,并利用该索引在信息库中进行搜索,将搜索到的对应该索引的用户发布的信息提供给搜索信息的用户。\n本实施例中,采用Hash算法,对所述新词生成一个Hash代码,并将该代码作为所述新词的索引,并利用该索引进行搜索,进一步提高了搜索的效率。\n应用本发明,无论搜索信息的用户输入多少个词,都只需要进行1次查询,不仅不需要区分输入的关键词的先后顺序,对于搜索后获得的信息不需要进行相关性分析即可提供给用户,还能保证提供给用户的信息与用户输入的关键词的匹配度,不仅简化了对用户搜索时的繁琐处理,同时还提高了搜索效率,而且对于相同的搜索信息量,系统响应时间都是固定的。\n显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若对本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
法律信息
- 2010-07-14
- 2008-05-07
- 2008-03-12
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2005-03-16
|
2004-07-05
| | |
2
| |
2002-02-13
|
2001-09-05
| | |
3
| |
2003-12-17
|
2002-05-28
| | |
4
| |
2005-04-27
|
2003-10-23
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |