著录项信息
专利名称 | 一种搜索信息的方法及系统 |
申请号 | CN200610154148.6 | 申请日期 | 2006-09-13 |
法律状态 | 暂无 | 申报国家 | 中国 |
公开/公告日 | 2008-03-19 | 公开/公告号 | CN101145153 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 阿里巴巴公司 | 申请人地址 | 浙江省杭州市西湖区转塘科技经济区块16号8幢
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 阿里云计算有限公司 | 当前权利人 | 阿里云计算有限公司 |
发明人 | 余斯恒;孔维青;张立中;王磊 |
代理机构 | 北京同达信恒知识产权代理有限公司 | 代理人 | 魏杉 |
摘要
本发明公开了一种通信领域中搜索信息的方法及系统,用以解决现有技术中存在搜索的信息偏离主题较远,且搜索引擎负担过重,速度较慢的问题。本发明对用户输入的关键词与主题关键词库中的词语进行匹配,确定主题关键词,根据主题关键词搜索出与用户意图较接近的相关信息,并将所述信息排序,使用户清楚看到最接近其意图的信息。同时定期或不定期的更新主题关键词库。搜索系统包括用户浏览器、搜索装置、主题关键词库、信息索引库以及信息投放装置;其中搜索装置包括通信接口、分词模块、过滤模块和搜索引擎。
1.一种搜索信息的方法,其特征在于,包括以下步骤:
根据词性对用户输入的信息进行分词;
将分词后得到的各词语与主题关键词库中预定义的主题关键词进行匹配,并将所述分词后得到的词语中匹配成功的词语确定为主题关键词,并删除未匹配成功的词语;其中,预定义的主题关键词为具有主题性的词;
在匹配成功后,进一步确定主题关键词的同义词,并将该同义词加入到主题关键词中;
根据所述主题关键词搜索信息,并输出搜索结果。
2.如权利要求1所述的搜索信息的方法,其特征在于,在进行匹配前,根据词语的词性从分词后得到的词语中过滤掉与主题无关的词语,再将保留的各词语与所述主题关键词库中的词语进行匹配。
3.如权利要求2所述的搜索信息的方法,其特征在于,进一步将部分或全部未能与所述主题关键词库中预定义的主题关键词匹配成功的词语补充到该主题关键词库中。
4.如权利要求1至3任一项所述的搜索信息的方法,其特征在于,在搜索信息时,对各主题关键词按“或”运算关系进行处理。
5.如权利要求4所述的搜索信息的方法,其特征在于,搜索信息时,将主题关键词与信息库中的关键词匹配,获取所有匹配成功的关键词所对应的信息。
6.如权利要求5所述的搜索信息的方法,其特征在于,在搜索到信息后,根据主题相关性对所述搜索到的各信息排序,将包含全部所述主题关键词的信息排在信息序列的前面。
7.一种用于搜索信息的装置,其特征在于,包括:
分词模块,用于根据词性对用户输入的信息进行分词;
过滤模块,用于将所述分词模块分词后得到的各词语与主题关键词库中预定义的主题关键词进行匹配,并将所述分词后得到的词语中匹配成功的词语确定为主题关键词,并删除未匹配成功的词语;其中,预定义的主题关键词为具有主题性的词;以及进一步确定所述主题关键词的同义词,将同义词加入到主题关键词中;
搜索引擎,用于根据所述过滤模块确定的主题关键词搜索信息,并输出搜索结果。
8.如权利要求7所述的用于搜索信息的装置,其特征在于,所述过滤模块根据词语的词性从分词后得到的词语中过滤掉与主题无关的词语,再将保留的各词语与所述主题关键词库中预定义的主题关键词进行匹配。
9.如权利要求7或8所述的用于搜索信息的装置,其特征在于,所述搜索引擎在搜索信息时,对各主题关键词按“或”运算关系进行处理。
10.一种用于搜索信息的系统,其特征在于,包括:
主题关键词库,用于存储主题关键词;
浏览器,用于为用户提供搜索界面和信息展示,将用户输入的信息发送到搜索装置和从搜索装置获取搜索结果;
搜索装置,用于对接收到的信息分词,将分词后的各词语与所述主题关键词库中预定义的主题关键词进行匹配,并将所述分词后得到的词语中匹配成功的词语确定为主题关键词,并删除未匹配成功的词语;其中,预定义的主题关键词为具有主题性的词;以及进一步确定所述主题关键词的同义词,将同义词加入到主题关键词中;根据所述主题关键词搜索信息。
11.如权利要求10所述的用于搜索信息的系统,其特征在于,还包括:
信息投放装置,用于投放信息内容和对应的关键词;
信息库,用于存储所述信息内容和对应的关键词,并将关键词传送给所述主题关键词库,以及为所述搜索装置提供信息资源和搜索接口。
12.如权利要求10或11所述的用于搜索信息的系统,其特征在于,所述搜索装置包括:
分词模块,用于根据词性对用户输入的信息进行分词;
过滤模块,用于将分词后得到的各词语与主题关键词库中预定义的主题关键词进行匹配,并将所述分词后得到的词语中匹配成功的词语确定为主题关键词;
搜索引擎,用于根据所述过滤模块确定的主题关键词搜索信息,并输出搜索结果。
一种搜索信息的方法及系统\n技术领域\n[0001] 本发明涉及计算机及通信领域,特别是一种搜索信息的方法及系统。\n背景技术\n[0002] 随着互联网的发展,网络已成为人们获取信息的主要来源之一。用户大都使用搜索引擎来获得想要查找的相关信息。\n[0003] 目前现有技术是,请参阅图1,用户在浏览器上输入欲获取信息的关键词,例如输入“我送什么生日礼物给好朋友”,发送到搜索引擎;\n[0004] 搜索引擎对用户输入的关键词进行分词,将上例分成:我/送/什么/生日/礼物/给/好/朋友;然后剔除少量的常见过滤词,如“我”、“好”等,将剩下的词进行搜索,上例中剩下的词有“生日”、“礼物”和“朋友”;\n[0005] 将剩下的词进行“或”运算关系处理,可能出现的结果包括“生日/礼物”、“生日/朋友”或“生日/礼物/朋友”,根据运算结果到信息索引库中进行搜索,显然根据“生日/礼物”搜索到的结果较贴近主题,根据“生日/朋友”得到的结果距离主题较远。\n[0006] 运营商通过信息投放装置来进行信息的投放,并且为了可以有较多的用户搜索到此信息,需要列举大量的可能性关键词发送到信息索引库,其中大量关键词与此信息主题无关。\n[0007] 可见,采用上述方案会搜索到大量偏离主题的信息,并且这些信息可能被排在信息序列的前面,而用户最关心的信息被排在后面,给用户带来很大不便;同时搜索这些信息给搜索引擎带来较大的负担,并且影响搜索速度,占用大量网络资源。由于目前技术会将搜索到的结果直接以网页的形式展现给用户,如果是偏离主题的信息会给用户带来很大困扰。运营商需要列举大量用户可能输入的与信息主题无关的词语,每个词都需要缴纳一笔费用,增加了运营商的运营成本。\n发明内容\n[0008] 本发明提供一种搜索方法及系统,用以解决现有技术中存在搜索的大量信息偏离主题,以及搜索引擎负担过重,速度较慢的问题。\n[0009] 本发明提供以下技术方案:\n[0010] 一种搜索信息的方法,包括步骤:\n[0011] 根据词性对用户输入的信息进行分词;\n[0012] 将分词后得到的各词语与主题关键词库中预定义的主题关键词进行匹配,并将所述分词后得到的词语中匹配成功的词语确定为主题关键词,并删除未匹配成功的词语;其中,预定义的主题关键词为具有主题性的词;\n[0013] 在匹配成功后,进一步确定主题关键词的同义词,并将该同义词加入到主题关键词中;\n[0014] 根据所述主题关键词搜索信息,并输出搜索结果。\n[0015] 在进行匹配前,根据词语的词性从分词后得到的词语中过滤掉与主题无关的词语,再将保留的各词语与所述主题关键词库中的词语进行匹配。\n[0016] 进一步将部分或全部未能与所述主题关键词库中预定义的主题关键词匹配成功的词语补充到该主题关键词库中。\n[0017] 在搜索信息时,对各主题关键词按“或”运算关系进行处理。\n[0018] 搜索信息时,将主题关键词与信息库中的关键词匹配,获取所有匹配成功的关键词所对应的信息。\n[0019] 在搜索到信息后,根据主题相关性对所述搜索到的各信息排序,将包含全部所述主题关键词的信息排在信息序列的前面。\n[0020] 一种用于搜索信息的装置,包括:\n[0021] 分词模块,用于根据词性对用户输入的信息进行分词;\n[0022] 过滤模块,用于将所述分词模块分词后得到的各词语与主题关键词库中预定义的主题关键词进行匹配,并将所述分词后得到的词语中匹配成功的词语确定为主题关键词,并删除未匹配成功的词语;其中,预定义的主题关键词为具有主题性的词;以及进一步确定所述主题关键词的同义词,将同义词加入到主题关键词中;\n[0023] 搜索引擎,用于根据所述过滤模块确定的主题关键词搜索信息,并输出搜索结果。\n[0024] 所述过滤模块根据词语的词性从分词后得到的词语中过滤掉与主题无关的词语,再将保留的各词语与所述主题关键词库中预定义的主题关键词进行匹配。\n[0025] 所述搜索引擎在搜索信息时,对各主题关键词按“或”运算关系进行处理。\n[0026] 一种用于搜索信息的系统,其特征在于,包括:\n[0027] 主题关键词库,用于存储主题关键词;\n[0028] 浏览器,用于为用户提供搜索界面和信息展示,将用户输入的信息发送到搜索装置和从搜索装置获取搜索结果;\n[0029] 搜索装置,用于对接收到的信息分词,将分词后的各词语与所述主题关键词库中预定义的主题关键词进行匹配,并将所述分词后得到的词语中匹配成功的词语确定为主题关键词,并删除未匹配成功的词语;其中,预定义的主题关键词为具有主题性的词;以及进一步确定所述主题关键词的同义词,将同义词加入到主题关键词中;根据所述主题关键词搜索信息。\n[0030] 该系统还包括:\n[0031] 信息投放装置,用于投放信息内容和对应的关键词;\n[0032] 信息库,用于存储所述信息内容和对应的关键词,并将关键词传送给所述主题关键词库,以及为所述搜索装置提供信息资源和搜索接口。\n[0033] 所述搜索装置包括:\n[0034] 分词模块,用于根据词性对用户输入的信息进行分词;\n[0035] 过滤模块,用于将分词后得到的各词语与主题关键词库中预定义的主题关键词进行匹配,并将所述分词后得到的词语中匹配成功的词语确定为主题关键词;\n[0036] 搜索引擎,用于根据所述过滤模块确定的主题关键词搜索信息,并输出搜索结果。\n[0037] 本发明有益效果如下:\n[0038] 本发明利用主题关键词库对用户输入的关键词进行预处理,筛选出主题关键词,搜索出与用户期望主题接近的相关信息,避免搜索出较多偏离主题的信息,减少了对用户的干扰,同时也减少了搜索引擎的负担,进而提高了搜索速度。\n[0039] 本发明进一步将搜索出的信息根据主题相关性进行排序,使用户清楚看到最贴近主题的信息,用户体验较好。相应的,运营商不再需要列举大量主题无关词来吸引用户搜索,从而降低了其运营成本,同时也为信息索引库节省大量空间。本发明定期更新主题关键词库,使用户能够更方便的搜索到其关注的相关信息。\n附图说明\n[0040] 图1为现有技术中搜索系统结构图;\n[0041] 图2A为本发明实施例中搜索系统结构图;\n[0042] 图2B为本发明实施例中搜索方法的基本流程图;\n[0043] 图3为本发明实施例中搜索装置的结构示意图;\n[0044] 图4为本发明实施例中搜索方法的具体流程图;\n[0045] 图5为本发明实施例中更新主题关键词库的方法流程图。\n具体实施方式\n[0046] 本发明通过对用户输入的关键词进行分词,过滤掉与主题无关的词,再将剩下的关键词与主题关键词库中的词语匹配,根据筛选出主题关键词搜索信息,使搜索时的关键词更加贴近主题,减少无关信息。\n[0047] 参见图2A,本实施例中用于搜索信息的系统结构包括用户浏览器21、搜索装置\n22、主题关键词库23、信息索引库24和信息投放装置25。\n[0048] 主题关键词库23存储主题关键词,并保持定期更新。用户浏览器21为用户提供搜索界面和信息展示,将用户输入的关键词发送到搜索装置22。搜索装置22对接收到的关键词分词,将分解后的关键词与主题关键词库23中的主题关键词进行匹配,并将匹配后的主题关键词进行“或”运算关系处理,根据处理结果到信息索引库24中搜索信息,以及定期或不定期将匹配失败的词补充到主题关键词库23中作为主题关键词。信息索引库24为搜索装置22提供资源和搜索接口,以及接收信息投放装置25发送的信息内容和对应的信息关键词;信息索引库24将所述信息关键词与主题关键词库23中的主题关键词进行匹配,保留匹配成功的信息关键词,每个匹配后的信息关键词与信息建立链接;同时信息索引库24还会对信息投放装置25发送的信息关键词进行分词提取,确定新的主题关键词并将其定期和不定期的补充到主题关键词库23。信息投放装置25为运营商提供信息投放的平台,并向信息索引库24发送运营商投放的信息内容,以及为信息内容设定的信息关键词。\n[0049] 参见图2B,本实施例中搜索信息的基本流程如下:\n[0050] 步骤210:根据词性,将用户输入的关键词进行分词。\n[0051] 步骤220:从分得的词中过滤掉明显与搜索信息主题无关的词。\n[0052] 步骤230:将剩余的保留词与主题关键词库23中的词进行匹配,确定匹配成功的词为主题关键词。\n[0053] 步骤240:在主题关键词库23中查询主题关键词的同义词,并将同义词加入到主题关键词中。\n[0054] 步骤250:根据确定的所有主题关键词在信息索引库24中搜索信息,并将搜索结果输出到用户浏览器21。\n[0055] 参见图3,本实施例中搜索装置22包括通信接口301、分词模块302、过滤模块303和搜索引擎304。\n[0056] 通信接口301接收用户通过用户浏览器21发送的关键词,将其转发给分词模块\n302,并向用户发送信息搜索结果;分词模块302将用户输入的关键词根据词性进行分词(如使用现有的分词工具YWS(Yahoo Word SegmentationYahoo,分词系统)进行分词);过滤模块303根据分词模块302的分词结果,对分解后的词逐个进行分析。首先过滤掉主题无关词,然后将剩下的保留词与主题关键词库23中的主题关键词进行匹配,同时查找匹配成功的主题关键词的同义词并将其作为主题关键词,然后将所有主题关键词按“或”运算关系发送到搜索引擎304。搜索引擎304根据过滤模块303过滤后的结果到信息索引库24中搜索与此结果匹配的信息关键词,进一步搜索到链接的信息,并将所述信息进行“与”运算关系处理,然后对搜索结果进行主题相关性排序,即包括最多主题关键词的信息排在前面。\n最后用户浏览器21通过通信接口301获取排列好的信息。\n[0057] 在本实施例中,主题无关词包括:动词、形容词和副词等,即去掉这些词后不会影响信息的搜索范围,也不会偏离用户的搜索主题。\n[0058] 参阅图4所示,以用户输入的关键词“我送什么生日礼物给好朋友”为例搜索相关信息的具体流程如下:\n[0059] 步骤401:分词模块302采用分词工具将通信接口301接收的用户输入的关键词“我送什么生日礼物给好朋友”根据词性进行分词,分词结果为:我/送/什么/生日/礼物/给/好/朋友。\n[0060] 步骤402:过滤模块303过滤掉主题无关词,例1中过滤掉的有“我”、“送”、“什么”、“给”和“好”。\n[0061] 步骤403:从剩余的未处理的词中取一个词与主题关键词库23中的主题关键词进行匹配,例如剩余词有“生日”、“礼物”和“朋友”,从中取词“朋友”进行匹配。\n[0062] 步骤404:判断该词是否属于主题关键词,若是,则执行步骤405,否则执行步骤\n406。\n[0063] 步骤405:将匹配成功的词确定为主题关键词,继续步骤407。\n[0064] 步骤406:删除不属于主题关键词的词(例如删除的词是“朋友”),进一步执行步骤407。\n[0065] 步骤407:判断是否有剩余的词没有与主题关键词库23中的主题关键词进行匹配,若是,则执行步骤404,否则执行408。\n[0066] 例如还有词语“生日”和“礼物”没有匹配,那么执行步骤404,再一次取词“生日”。\n[0067] 步骤408:在主题关键词库23中查找确定的主题关键词的同义词,并将其加入到主题关键词中。如“礼物”的同义词“礼品”,将“礼品”也作为主题关键词。\n[0068] 步骤409:将筛选出的主题关键词进行“或”运算关系处理,得到处理结果。例1中主题关键词为“生日”和“礼物”,以及同义词“礼品”,处理结果为“生日/礼物”和“生日/礼品”。搜索引擎304到信息索引库24中搜索与运算结果相匹配的信息关键词。如“生日礼物”、“生日礼品”、“生日”、“礼物”和“礼品”。根据匹配到的信息关键词与信息的链接,搜索出所有包含信息关键词的信息,将信息进行“与”运算关系处理,即,使所有搜索出的信息被放在同一页面下。\n[0069] 步骤410:根据信息关键词与主题的相关性对搜索出的信息进行排序。例如,“生日礼物”与用户的意图最接近,故将根据“生日礼物”搜索出的信息排在最前面,以此类推。\n[0070] 步骤411:用户浏览器21从搜索装置22处获取排列好顺序的信息展现给用户,包括用户信息的标题,简介和用户网站页面的链接。\n[0071] 产生新的主题词条来扩充主题关键词库23的一种方式是搜索装置22每次对用户输入的关键词进行筛选时,将具有主题性但不属于主题关键词的词保留(即保留前述步骤\n406中欲删除的词);然后,定期对保留的词进行审核后生成主题词条,并将主题词条加入到主题关键词库23中。通过这种方式,可以发现新生成的词汇,比如“超女”等。另外一种方式是信息索引库24分析来自信息投放装置25的信息关键词,提取出新的主题关键词,生成主题词条并补充到主题关键词库23,比如品牌名词“美的”等。\n[0072] 参见图5,本实施例中根据关键词生成主题词条并补充到主题关键词库中的具体步骤如下:\n[0073] 步骤501:选择合适的分词工具,并将一定量的专用词汇补充到分词工具的基本词典中,使得分词工具遇到这些字的组合时可以将其分成一个词。例如词语“生日”,不希望将其分成“生”和“日”。\n[0074] 步骤502:使用分词工具对需要补充到词库中的关键词进行分词,生成基本词条。\n[0075] 步骤503:对基本词条进行筛选,筛选出没有实际意义的词,例如“我”。\n[0076] 步骤504:对筛选后的基本词条进行词性分析,对副词、形容词和动词等进行审核,滤除不具主题性的词,如“送”和“好”等。\n[0077] 步骤505:将剩余具有主题性的词定为主题关键词并保留,生成主题词条,一般为各类名词,如地名。\n[0078] 步骤506:将与主题关键词同义的词存入该主题词条中。\n[0079] 步骤507:将主题词条保存到所述主题关键词库中。主题关键词库可以应用类似于多级倒排表索引结构。\n[0080] 本发明利用主题关键词库对用户输入的关键词进行预处理,筛选出主题关键词,搜索出与用户期望主题接近的相关信息,从而避免了搜索出较多偏离主题的信息,减少了对用户的干扰,同时也减少搜索引擎的负担,进而提高了搜索速度。本发明进一步将搜索出的信息根据主题相关性进行排序,使用户能够清楚看到最贴近主题的信息,从而为用户带来更好的体验。相应的,运营商不再需要列举大量主题无关词来吸引用户搜索,减少了其运营成本,同时也为信息索引库节省大量空间。本发明定期更新主题关键词库,使用户能够更方便的搜索到其关注的相关信息。\n[0081] 显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若对本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
法律信息
- 2020-05-12
专利权的转移
登记生效日: 2020.04.23
专利权人由阿里巴巴集团控股有限公司变更为阿里云计算有限公司
地址由英属开曼群岛大开曼乔治敦变更为浙江省杭州市西湖区转塘科技经济区块16号8幢
- 2011-03-30
- 2008-05-14
- 2008-03-19
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2002-02-13
|
2001-09-05
| | |
2
| | 暂无 |
2003-11-12
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |