著录项信息
专利名称 | 确定中心词的方法及装置、搜索方法及装置 |
申请号 | CN201110369651.4 | 申请日期 | 2011-11-18 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2013-05-29 | 公开/公告号 | CN103123624A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 阿里巴巴集团控股有限公司 | 申请人地址 | 英属开曼群岛大开曼岛资本大厦一座四层847号邮箱
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 阿里巴巴集团控股有限公司 | 当前权利人 | 阿里巴巴集团控股有限公司 |
发明人 | 谈云兵;李连华 |
代理机构 | 北京同达信恒知识产权代理有限公司 | 代理人 | 郭润湘 |
摘要
本申请公开了一种确定中心词的方法及装置、搜索方法及装置,该确定中心词的方法包括步骤:将用户输入的搜索关键词划分为各关键词单元;并确定划分出的各关键词单元的词性;从划分出的各关键词单元中,提取出词性为名词的关键词单元;并将提取出的关键词单元确定为所述搜索关键词的中心词。本申请技术方案解决了现有技术中在确定中心词时浪费了网站较多的处理资源的问题。
1.一种确定中心词的方法,其特征在于,包括:
将用户输入的搜索关键词划分为各关键词单元;并
确定划分出的各关键词单元的词性;
从划分出的各关键词单元中,提取出词性为名词的关键词单元;并
将提取出的关键词单元确定为所述搜索关键词的中心词;
针对提取出的每个关键词单元,分别将该关键词单元与词性为预定词性的关键词单元进行组合,得到各关键词单元组合;
将得到的各关键词单元组合,确定为所述搜索关键词的中心词;
将得到的各关键词单元组合,确定为所述搜索关键词的中心词之前,还包括:
针对得到的每个关键词单元组合,分别确定该关键词单元组合所对应的词性搭配类型,以及获得预先确定的、所述词性搭配类型对应的词性搭配模型,并判断该关键词单元组合是否出现在所述词性搭配模型中;
将得到的各关键词单元组合,确定为所述搜索关键词的中心词,具体包括:
将判断得到出现在所述词性搭配模型中的各关键词单元组合,确定为所述搜索关键词的中心词。
2.如权利要求1所述的方法,其特征在于,将判断得到出现在所述词性搭配模型中的各关键词单元组合,确定为所述搜索关键词的中心词之前,还包括:
针对判断得到出现在所述词性搭配模型中的各关键词单元组合,分别获得预先确定的、该关键词单元组合中词性为名词的关键词单元在所述词性搭配模型中的权重值以及该关键词单元组合在所述词性搭配模型中出现的次数,并判断获得的所述次数是否大于所述权重值的预设倍数;
将判断得到出现在所述词性搭配模型中的各关键词单元组合,确定为所述搜索关键词的中心词,具体包括:
将判断出所述次数大于所述权重值的预设倍数的各关键词单元组合,确定为所述搜索关键词的中心词。
3.如权利要求2所述的方法,其特征在于,关键词单元组合中词性为名词的关键词单元在所述词性搭配模型中的权重值是通过如下方式确定的:
其中,ikf为该关键词单元在所述词性搭配模型中的权重值;
n_freqsum为所述词性搭配模型中,包含该关键词单元的关键词单元组合出现的次数的和;
vn_count为所述词性搭配模型中,与该关键词单元进行组合的其他关键词单元的数目。
4.如权利要求1所述的方法,其特征在于,所述预定词性为下述词性中的至少一种:
动词;
形容词;
名词。
5.如权利要求1所述的方法,其特征在于,在提取出词性为名词的关键词单元之前,还包括:
判断所述搜索关键词的字符数以及划分出的关键词单元的数量是否满足预设条件;
若判断结果为是,则执行提取出词性为名词的关键词单元的操作。
6.如权利要求5所述的方法,其特征在于,所述预设条件为:
所述搜索关键词的字符数不小于第一规定阈值;和/或
划分出的关键词单元的数量不小于第二规定阈值。
7.如权利要求1所述的方法,其特征在于,还包括:
确定划分出的各关键词单元的商业属性;
针对每个关键词单元,分别获得预先确定的、该关键词单元的商业属性所对应的商业属性模型,并判断该关键词单元是否在获得的商业属性模型中;
将判断结果为是的各关键词单元,确定为所述搜索关键词的中心词。
8.如权利要求7所述的方法,其特征在于,还包括:
针对每个关键词单元,分别将该关键词单元与商业属性不同的其他各关键词单元进行组合,得到各关键词单元组合;
针对得到的每个关键词单元组合,分别确定该关键词单元组合所对应的商业属性搭配类型,以及获得预先确定的、所述商业属性搭配类型对应的商业属性搭配模型,并判断该关键词单元组合是否出现在所述商业属性搭配模型中;
将判断结果为是的各关键词单元组合,确定为所述搜索关键词的中心词。
9.一种搜索方法,其特征在于,包括:
接收用户输入的搜索关键词;
根据权利要求1至8中任一权利要求所述确定中心词的方法,确定所述搜索关键词的中心词;
根据确定出的所述搜索关键词的中心词,进行搜索,并返回搜索结果。
10.一种确定中心词的装置,其特征在于,包括:
关键词划分单元,用于将用户输入的搜索关键词划分为各关键词单元;
词性确定单元,用于确定关键词划分单元划分出的各关键词单元的词性;
关键词提取单元,用于从关键词划分单元划分出的各关键词单元中,提取出词性为名词的关键词单元;
第一中心词确定单元,用于将关键词提取单元提取出的关键词单元确定为所述搜索关键词的中心词;
第一关键词组合单元,用于针对关键词提取单元提取出的每个关键词单元,分别将该关键词单元与词性为预定词性的关键词单元进行组合,得到各关键词单元组合;
第二中心词确定单元,用于将第一关键词组合单元得到的各关键词单元组合,确定为所述搜索关键词的中心词;
还包括:词性搭配类型确定单元、词性搭配模型获得单元和第一判断单元,其中:
词性搭配类型确定单元,用于在第二中心词确定单元将第一关键词组合单元得到的各关键词单元组合,确定为所述搜索关键词的中心词之前,针对第一关键词组合单元得到的每个关键词单元组合,分别确定该关键词单元组合所对应的词性搭配类型;
词性搭配模型获得单元,用于获得预先确定的、词性搭配类型确定单元确定的词性搭配类型对应的词性搭配模型;
第一判断单元,用于判断该关键词单元组合是否出现在所述词性搭配模型中;
第二中心词确定单元,具体用于将第一判断单元判断得到出现在所述词性搭配模型中的各关键词单元组合,确定为所述搜索关键词的中心词。
11.一种搜索装置,其特征在于,包括:
接收单元,用于接收用户输入的搜索关键词;
权利要求10所述的确定中心词的装置,用于确定所述搜索关键词的中心词;
搜索单元,用于根据确定出的所述搜索关键词的中心词,进行搜索,并返回搜索结果。
确定中心词的方法及装置、搜索方法及装置\n技术领域\n[0001] 本申请涉及信息处理技术领域,尤其涉及一种确定中心词的方法及装置、搜索方法及装置。\n背景技术\n[0002] 随着互联网技术的不断发展,越来越多的信息资源选择网络作为传播的载体。为了使用户能够在海量的互联网信息中获取所需要的信息,大多数网站都提供搜索功能,用户需要搜索某信息时,可以在网站中输入搜索关键词,该网站查找与该搜索关键词相关的信息,然后提供给用户。但是,当用户输入的搜索关键词太长时,网站就可能搜索不到与该搜索关键词相关的信息,用户就无法获取到所需要的信息。\n[0003] 针对上述问题,现有技术提出,网站在为用户查找信息时,先从用户输入的搜索关键词中提取出至少一个中心词,然后查找与提取出的中心词相关的信息,将查找到的信息提供给用户。这样,即使用户输入的搜索关键词过长,网站也能够根据提取出的中心词在海量的信息中搜索到相关信息。\n[0004] 如图1所示,其为现有技术中从搜索关键词中提取中心词的方法流程示意图,具体处理流程如下:\n[0005] 步骤11,当用户需要在网站中搜索某信息时,在该网站中输入一个搜索关键词,然后确认搜索,该网站就获得了用户输入的搜索关键词。\n[0006] 步骤12,网站将该搜索关键词划分为各关键词单元。\n[0007] 其中,网站可以基于统计的分词算法,使用语料库来划分关键词单元。例如,用户输入的搜索关键词为“纯色长袖衬衫”,网站将该搜索关键词进行划分后,得到的各关键词单元分别为“纯色”、“长袖”和“衬衫”。\n[0008] 步骤13,网站预先统计出规定时间段内搜索次数较多的各关键词单元,并针对统计出的每个关键词单元,分别设定该关键词单元的提取分数,其中,关键词单元在该规定时间段内的搜索次数越多,那么为该关键词单元设定的提取分数就越大,也可以直接将关键词单元在该规定时间段内的搜索次数设定为提取分数,网站将统计出的各关键词单元及其提取分数对应保存到中心词词典中。\n[0009] 步骤14,网站将步骤12划分出的各关键词单元,分别与中心词词典中存储的各关键词单元进行匹配。\n[0010] 步骤15,网站针对步骤14匹配成功的每个关键词单元,分别在上述中心词词典中查找该关键词单元对应的提取分数。\n[0011] 步骤16,网站按照提取分数由高到低的顺序,将步骤14匹配成功的各关键词单元进行排序,并将前预定数目个关键词单元确定为该搜索关键词的中心词。\n[0012] 由上述处理过程可知,现有技术是根据中心词词典从搜索关键词中提取中心词的,而中心词词典是预先根据规定时间段内关键词单元的搜索次数设定的,但是搜索次数并不能反映用户的搜索意图,这样就会出现根据上述中心词词典提取出的中心词并不能准确反映用户搜索意图的情况。例如,用户输入的搜索关键词为“打折手机”,进行关键词单元划分后得到“打折”和“手机”这两个关键词单元,由于“打折”这个关键词单元在规定时间段内的搜索次数比“手机”这个关键词单元在规定时间段内的搜索次数多,因此在上述中心词词典中,“打折”的提取分数要比“手机”的提取分数高,从而网站将“打折”确定为中心词,但是在划分出的两个关键词单元中,能够反映用户搜索意图的关键词单元应该是“手机”,而不是“打折”。由上可见,网站根据中心词词典提取出的中心词可能不准确,不能准确反映用户的搜索意图,如果网站按照这些中心词来为用户搜索信息,那么搜索到的信息中可能并不包含用户想要获取的信息,用户也就不会点击浏览这些信息,但是网站依然会将这些信息提供给用户,从而浪费了网站较多的处理资源。\n发明内容\n[0013] 本申请实施例提供一种确定中心词的方法及装置、搜索方法及装置,用以解决现有技术中在确定中心词时浪费了网站较多的处理资源的问题。\n[0014] 本申请实施例技术方案如下:\n[0015] 一种确定中心词的方法,该方法包括:将用户输入的搜索关键词划分为各关键词单元;并确定划分出的各关键词单元的词性;从划分出的各关键词单元中,提取出词性为名词的关键词单元;并将提取出的关键词单元确定为所述搜索关键词的中心词。\n[0016] 一种搜索方法,该方法包括:接收用户输入的搜索关键词;根据上述确定中心词的方法,确定所述搜索关键词的中心词;根据确定出的所述搜索关键词的中心词,进行搜索,并返回搜索结果。\n[0017] 一种确定中心词的装置,包括:关键词划分单元,用于将用户输入的搜索关键词划分为各关键词单元;词性确定单元,用于确定关键词划分单元划分出的各关键词单元的词性;关键词提取单元,用于从关键词划分单元划分出的各关键词单元中,提取出词性为名词的关键词单元;第一中心词确定单元,用于将关键词提取单元提取出的关键词单元确定为所述搜索关键词的中心词。\n[0018] 一种搜索装置,包括:接收单元,用于接收用户输入的搜索关键词;上述的确定中心词的装置,用于确定所述搜索关键词的中心词;搜索单元,用于根据确定出的所述搜索关键词的中心词,进行搜索,并返回搜索结果。\n[0019] 本申请实施例技术方案中,将用户输入的搜索关键词划分为各关键词单元,并确定划分出的各关键词单元的词性,从划分出的各关键词单元中,提取出词性为名词的关键词单元,并将提取出的关键词单元确定为所述搜索关键词的中心词。由上可见,由于在搜索关键词对应的各关键词单元中,能够表达用户购买意图的通常都是名词,因此本申请实施例技术方案中,将用户输入的搜索关键词划分为各关键词单元后,不是将各关键词单元与预先人工定义的中心词词典中的各关键词单元进行匹配,而是将词性为名词的各关键词单元提取出来作为该搜索关键词的中心词,这样就避免了网站根据中心词词典提取出的中心词不准确、不能准确反映用户的搜索意图的问题,有效地提高了提取中心词的准确性,也节省了网站较多的处理资源。\n附图说明\n[0020] 图1为现有技术中,从搜索关键词中提取中心词的方法流程示意图;\n[0021] 图2为本申请实施例一中,确定中心词的方法流程示意图;\n[0022] 图3为本申请实施例二中,确定中心词的优选实施方式的方法流程示意图;\n[0023] 图4为本申请实施例三中,确定各词性搭配模型的方法流程示意图;\n[0024] 图5为本申请实施例四中,确定中心词的优选实施方式的方法流程示意图;\n[0025] 图6为本申请实施例六中,确定中心词的装置结构示意图。\n具体实施方式\n[0026] 下面结合各个附图对本申请实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细地阐述。\n[0027] 实施例一\n[0028] 如图2所示,其为本申请实施例一中确定中心词的方法流程示意图,具体处理过程如下:\n[0029] 步骤21,将用户输入的搜索关键词划分为各关键词单元。\n[0030] 当用户想要在网站中搜索信息时,可以通过网页浏览器输入搜索关键词,网站获得用户输入的搜索关键词后,首先将获得的搜索关键词进行归一化处理,例如,去除不必要的词、去除多余空格、大小写字母的转换、全角半角的转换、简体繁体的转换、去除标点符号、数字格式的转换等,完成归一化处理后,再将该搜索关键词划分为各关键词单元,其中,可以但不限于基于统计的分词算法来划分关键词单元,具体的:使用语料库来划分关键词单元,将搜索关键词与语料库中的各个分词进行匹配,将匹配出的各个分词确认为划分后的各关键词单元,例如,对获得的搜索关键词“纯色长袖衬衫”进行划分后,得到的各关键词单元分别为“纯色”、“长袖”和“衬衫”。\n[0031] 基于统计的分词算法可以分为大粒度分词算法和小粒度分词算法,由于采用小粒度分词算法得到的各关键词单元的文本长度较短,因此为了提高划分关键词单元的精确性,优先采用小粒度分词算法,例如,采用小粒度分词算法将搜索关键词“去油面膜”进行关键词单元划分后得到两个关键词单元,分别为“去油”和“面膜”。\n[0032] 步骤22,确定划分出的各关键词单元的词性。\n[0033] 本申请实施例一中,关键词单元的词性可以但不限于为名词、动词、形容词等,例如,用户输入的搜索关键词为“打折机票”,步骤21将该搜索关键词划分为两个关键词单元“打折”和“机票”,步骤22分别确定上述两个关键词单元的词性,确定出关键词单元“打折”的词性为动词,关键词单元“机票”的词性为名词。\n[0034] 步骤23,从划分出的各关键词单元中,提取出词性为名词的关键词单元。\n[0035] 例如,搜索关键词“打折机票”对应的两个关键词单元中,“打折”的词性为动词,“机票”的词性为名词,因此将“机票”这个词性为名词的关键词单元提取出来。\n[0036] 其中,在执行步骤23之前,还可以先判断用户输入的搜索关键词的字符数以及步骤22划分出的关键词单元的数量是否满足预设条件,若判断结果为满足预设条件,则执行步骤23,即从划分出的各关键词单元中,提取出词性为名词的关键词单元,若判断结果为不满足预设条件,则可以直接将划分出的各关键词单元作为该搜索关键词的中心词,如果将搜索关键词只划分为两个关键词单元,则除了将这两个关键词单元作为该搜索关键词的中心词之外,还可以将这两个关键词单元进行组合,并将组合后的词作为该搜索关键词的中心词。\n[0037] 上述预设条件可以但不限于为:\n[0038] 所述搜索关键词的字符数不小于第一规定阈值;或\n[0039] 划分出的关键词单元的数量不小于第二规定阈值;或\n[0040] 所述搜索关键词的字符数不小于第一规定阈值,且划分出的关键词单元的数量不小于第二规定阈值。\n[0041] 其中,上述第一规定阈值和第二规定阈值可以预先进行设定,例如将第一规定阈值设为12,将第二规定阈值设为2,此时的预设条件为所述搜索关键词的字符数不小于12,且划分出的关键词单元的数量不小于2,若用户输入的搜索关键词为“打折手机”,由于该搜索关键词的字符数为8,小于12,因此不满足预设条件,从而将划分出的关键词单元“打折”和“手机”,以及这两个关键词单元的组合“打折手机”作为该搜索关键词的中心词。\n[0042] 步骤24,将提取出的关键词单元确定为所述搜索关键词的中心词。\n[0043] 本申请实施例一提出,当用户在网站中搜索信息时,输入的搜索关键词中,最能表达用户搜索意图的词一般均为名词。例如,用户输入的搜索关键词为“打折机票”,其中在“打折”和“机票”两个词中,最能反映用户搜索意图的词应该为“机票”,而“机票”的词性为名词;再例如,用户输入的搜索关键词为“长袖衬衫”,其中在“长袖”和“衬衫”两个词中,最能反映用户搜索意图的词应该为“衬衫”,而“衬衫”的词性为名词。因此,本申请实施例一将用户输入的搜索关键词对应的各关键词单元中,词性为名词的各关键词单元作为该搜索关键词的中心词,后续网站可以根据确定出的各中心词来搜索相关信息,并将搜索到的信息提供给该用户,而根据中心词来搜索信息的过程和现有技术的过程一致,这里不再赘述。\n[0044] 由上述处理过程可知,本申请实施例技术方案中,将用户输入的搜索关键词划分为各关键词单元,并确定划分出的各关键词单元的词性,从划分出的各关键词单元中,提取出词性为名词的关键词单元,并将提取出的关键词单元确定为所述搜索关键词的中心词。\n由上可见,由于在搜索关键词对应的各关键词单元中,能够表达用户购买意图的通常都是名词,因此本申请实施例技术方案中,将用户输入的搜索关键词划分为各关键词单元后,不是将各关键词单元与预先人工定义的中心词词典中的各关键词单元进行匹配,而是将词性为名词的各关键词单元提取出来作为该搜索关键词的中心词,这样就避免了网站根据中心词词典提取出的中心词不准确、不能准确反映用户的搜索意图的问题,有效地提高了提取中心词的准确性,也节省了网站较多的处理资源。\n[0045] 实施例二\n[0046] 本申请实施例一提出将搜索关键词对应的各关键词单元中,词性为名词的关键词单元提取为该搜索关键词的中心词,进一步地,为了更加准确地反映用户的搜索意图,本申请实施例二提出一种优选的实施方式,即将词性为名词的关键词单元与预定词性的关键词单元进行组合,并将该组合也作为该搜索关键词的中心词,下面介绍详细流程。\n[0047] 如图3所示,其为本申请实施例二中确定中心词的优选实施方式的方法流程示意图,具体处理过程如下:\n[0048] 步骤31,将用户输入的搜索关键词划分为各关键词单元。\n[0049] 步骤32,确定划分出的各关键词单元的词性。\n[0050] 步骤33,从划分出的各关键词单元中,提取出词性为名词的关键词单元。\n[0051] 步骤34,将提取出的关键词单元确定为所述搜索关键词的中心词。\n[0052] 其中,本申请实施例二中的步骤31至步骤34的实施流程分别和本申请实施例一中的步骤21至步骤24的实施流程一致,这里不再赘述。\n[0053] 步骤35,针对提取出的每个关键词单元,分别将该关键词单元与词性为预定词性的关键词单元进行组合,得到各关键词单元组合。\n[0054] 其中,所述预定词性可以预先设置,例如将预定词性设置为下述词性中的至少一种:动词、形容词、名词。\n[0055] 若上述预定词性为动词、形容词和名词,对用户输入的搜索关键词进行关键词单元划分,得到的各关键词单元分别为v1、v2、a1、n1、a2、n2、v3、n3(v代表词性为动词的关键词单元,a代表词性为形容词的关键词单元,n代表词性为名词的关键词单元),步骤33将其中词性为名词的关键词单元(即n1、n2、n3)提取出来,步骤34将这些关键词单元确定为该搜索关键词的中心词,进一步的,步骤35针对提取出的每个词性为名词的关键词单元,分别将该关键词单元和词性为动词的关键词单元进行组合,以及和词性为名词的关键词单元进行组合,以及和词性为形容词的关键词单元进行组合,得到该关键词单元对应的各关键词单元组合,如表一所示。\n[0056] 表一:\n[0057] \n[0058] 步骤36,将得到的各关键词单元组合,确定为所述搜索关键词的中心词。\n[0059] 例如,得到的各关键词单元组合如表一所示,那么步骤36将表一包含的各关键词单元组合也确定为该搜索关键词的中心词。也就是说,搜索关键词对应的中心词除了包含词性为名词的关键词单元,还包含词性为名词的关键词单元与预定词性的关键词单元组合成的关键词单元组合。\n[0060] 本申请实施例二提出,可以直接将步骤35得到的各关键词单元组合确定为搜索关键词的中心词,也可以将步骤35得到的各关键词单元组合先进行筛选,筛选掉一部分关键词单元组合,然后将剩余的关键词单元组合确定为搜索关键词的中心词。下面详细介绍筛选关键词单元组合的过程。\n[0061] 预先设定各词性搭配模型,每个词性搭配模型分别对应一种词性搭配类型,若词性为名词的关键词单元与词性为动词的关键词单元进行组合,那么组合得到的关键词单元组合对应的词性搭配类型就为n*v词性搭配类型;若词性为名词的关键词单元与词性为形容词的关键词单元进行组合,那么组合得到的关键词单元组合对应的词性搭配类型就为n*a词性搭配类型;若词性为名词的关键词单元与词性为名词的关键词单元进行组合,那么组合得到的关键词单元组合对应的词性搭配类型就为n*n词性搭配类型。\n[0062] 每种词性搭配类型都对应一个词性搭配模型,词性搭配模型中包含词性搭配类型为该类型的各关键词单元组合。例如,n*v词性搭配类型对应n*v词性搭配模型,n*v词性搭配模型中包含各词性为名词的关键词单元对应的、词性搭配类型为n*v词性搭配类型的各关键词单元组合,如表二所示:\n[0063] 表二:\n[0064] \n[0065] n*a词性搭配类型对应n*a词性搭配模型,n*a词性搭配模型中包含各词性为名词的关键词单元对应的、词性搭配类型为n*a词性搭配类型的各关键词单元组合,如表三所示:\n[0066] 表三:\n[0067] \n[0068] n*n词性搭配类型对应n*n词性搭配模型,n*n词性搭配模型中包含各词性为名词的关键词单元对应的、词性搭配类型为n*n词性搭配类型的各关键词单元组合,如表四所示:\n[0069] 表四:\n[0070] \n[0071] 在步骤35得到各关键词单元组合后,先针对得到的每个关键词单元组合,分别确定该关键词单元组合所对应的词性搭配类型,以及获得预先确定的、所述词性搭配类型对应的词性搭配模型,判断该关键词单元组合是否出现在所述词性搭配模型中,将判断得到出现在所述词性搭配模型中的各关键词单元组合,确定为所述搜索关键词的中心词。\n[0072] 其中,本申请实施例二提出,可以将判断得到出现在所述词性搭配模型中的所有关键词单元组合,均确定为所述搜索关键词的中心词,此外,还可以针对判断得到出现在所述词性搭配模型中的各关键词单元组合,分别获得预先确定的、该关键词单元组合中词性为名词的关键词单元在所述词性搭配模型中的权重值以及该关键词单元组合在所述词性搭配模型中出现的次数,其中所述权重值和所述次数是在预先确定词性搭配模型时一并确定出的,判断获得的所述次数是否大于所述权重值的预设倍数,将判断出所述次数大于所述权重值的预设倍数的各关键词单元组合,确定为所述搜索关键词的中心词,那么判断出所述次数不大于所述权重值的预设倍数的各关键词单元组合,则不为所述搜索关键词的中心词。\n[0073] 下面介绍确定各词性搭配模型的线下处理过程。\n[0074] 实施例三\n[0075] 如图4所示,其为本申请实施例三中确定各词性搭配模型的方法流程示意图,具体处理过程如下:\n[0076] 步骤41,获取各用户在预设时间段内输入的搜索关键词。\n[0077] 所述预设时间段可以进行设置,例如设置为一个月或者设置为一天。\n[0078] 网站将各用户在网站中搜索信息时所输入的搜索关键词保存在日志记录中,后续网站可以直接从日志记录中提取在各用户预设时间段内输入的搜索关键词。\n[0079] 步骤42,针对获取的每一个搜索关键词,分别将该搜索关键词划分为各关键词单元。\n[0080] 将搜索关键词划分为各关键词单元的过程和本申请实施例一中步骤21的过程一致,这里不再赘述。\n[0081] 步骤43,确定划分出的各关键词单元的词性。\n[0082] 确定各关键词单元的词性的方法和本申请实施例一中步骤22的方法一致,这里不再赘述。\n[0083] 步骤44,按照划分出的各关键词单元在搜索关键词中由先到后的顺序,提取出最后一个词性为名词的关键词单元。\n[0084] 用户在进行搜索时,一般将最能表达搜索意图的名词放在搜索关键词的最后,将限定该名词的形容词、动词或其他名词放在前面,因此搜索关键词的最后一个词性为名词的关键词单元最能反映用户的搜索意图。\n[0085] 例如,搜索关键词“茶树净痘去油面膜”对应的各关键词单元分别为“茶树”、“净痘”、“去油”、“面膜”,其中词性为名词的关键词单元为“茶树”和“面膜”,其中“面膜”为最后一个词性为名词的关键词单元,这个关键词单元最能反映用户的搜索意图。\n[0086] 步骤45,针对提取出的每个关键词单元,分别将该关键词单元与词性为预定词性的关键词单元进行组合,得到各关键词单元组合。\n[0087] 其中,所述预定词性可以预先设置,例如将预定词性设置为下述词性中的至少一种:动词、形容词、名词。\n[0088] 步骤46,针对得到的每个关键词单元组合,分别确定该关键词单元组合的词性搭配类型,并且将该关键词单元组合添加进该词性搭配类型对应的词性搭配模型中。\n[0089] 例如,获取的搜索关键词分别为:“打折机票”、“预定机票”、“预定打折机票”和“预定机票”,将各搜索关键词划分为各关键词单元,如表五所示。\n[0090] 表五:\n[0091] \n 搜索关键词 关键词单元\n 打折机票 打折、机票\n 预定机票 预定、机票\n 预定打折机票 预定、打折、机票\n 预定机票 预定、机票\n[0092] 针对表五中的各关键词单元,分别确定各关键词单元的词性,如表六所示。\n[0093] 表六:\n[0094] \n[0095] \n[0096] 由表六可知,从第一个搜索关键词“打折机票”的各关键词单元中提取出最后一个词性为名词的关键词单元“机票”,而预定词性为动词、形容词和名词,则针对提取出的该关键词单元,将该关键词单元与关键词单元“打折”进行组合,得到关键词单元组合“机票:打折”;同样的,从第二个搜索关键词“预定机票”的各关键词单元中提取出最后一个词性为名词的关键词单元“机票”,针对提取出的该关键词单元,将该关键词单元与关键词单元“预定”进行组合,得到关键词单元组合“机票:预定”;从第三个搜索关键词“预定打折机票”的各关键词单元中提取出最后一个词性为名词的关键词单元“机票”,针对提取出的该关键词单元,将该关键词单元与关键词单元“打折”和“预定”分别进行组合,得到关键词单元组合“机票:预定”和“机票:打折”;从第四个搜索关键词“预定机票”的各关键词单元中提取出最后一个词性为名词的关键词单元“机票”,针对提取出的该关键词单元,将该关键词单元与关键词单元“预定”进行组合,得到关键词单元组合“机票:预定”。\n[0097] 由于得到的各关键词单元组合的词性搭配类型均为n*v词性搭配类型,所以将得到的各关键词单元组合均添加进n*v词性搭配模型中,n*v词性搭配模型如表七所示。\n[0098] 表七:\n[0099] \n[0100] 为了得到关键词单元组合中词性为名词的关键词单元在词性搭配模型中的权重值以及该关键词单元组合在词性搭配模型中出现的次数,本申请实施例三提出,在确定词性搭配模型时,记录每个关键词单元组合在该词性搭配模型中出现的次数,例如,“机票:打折”这一关键词单元组合在n*v词性搭配模型中出现的次数为2次(分别由第一个搜索关键词“打折机票”和第三个搜索关键词“预定打折机票”得到),“机票:预定”这一关键词单元组合在n*v词性搭配模型中出现的次数为3次(分别由第二个搜索关键词“预定机票”、第三个搜索关键词“预定打折机票”和第四个搜索关键词“预订机票”得到),如表八所示:\n[0101] 表八:\n[0102] \n[0103] 通过如下方式确定关键词单元组合中词性为名词的关键词单元在词性搭配模型中的权重值:\n[0104] \n[0105] 其中,ikf为该关键词单元在词性搭配模型中的权重值,n_freqsum为词性搭配模型中包含该关键词单元的关键词单元组合出现的次数的和,vn_count为词性搭配模型中与该关键词单元进行组合的其他关键词单元的数目。\n[0106] 关键词单元组合“机票:打折”和“机票:预定”在n*v词性搭配模型中出现的次数如表八所示,针对“机票”这一词性为名词的关键词单元,n_freqsum=2+3=5,vn_count=2,所以“机票”这一关键词单元在n*v词性搭配模型中的权重值\n[0107] 本申请实施例一提出将搜索关键词对应的各关键词单元中,词性为名词的关键词单元提取为该搜索关键词的中心词,进一步的,为了更加准确地反映用户的搜索意图,本申请实施例四提出一种优选的实施方式,除了将词性为名词的关键词单元提取为中心词之外,还可以根据各关键词单元的商业属性,进一步确定出中心词。下面介绍详细流程。\n[0108] 实施例四\n[0109] 如图5所示,其为本申请实施例四中确定中心词的优选实施方式的方法流程示意图,具体处理过程如下:\n[0110] 步骤51,将用户输入的搜索关键词划分为各关键词单元。\n[0111] 步骤52,确定划分出的各关键词单元的词性。\n[0112] 步骤53,从划分出的各关键词单元中,提取出词性为名词的关键词单元。\n[0113] 步骤54,将提取出的关键词单元确定为所述搜索关键词的中心词。\n[0114] 其中,本申请实施例四中的步骤51至步骤54的实施流程分别和本申请实施例一中的步骤21至步骤24的实施流程一致,这里不再赘述。\n[0115] 步骤55,确定划分出的各关键词单元的商业属性。\n[0116] 其中,关键词单元可以具有商业属性,也可以不具有商业属性,所述商业属性可以但不限于为型号属性、品牌属性或产品属性等。例如,划分出的各关键词单元为“n73”、“诺基亚”、“手机”,其中,“n73”的商业属性为型号属性,“诺基亚”的商业属性为品牌属性,“手机”的商业属性为产品属性,如表九所示。\n[0117] 表九:\n[0118] \n 关键词单元 商业属性\n n73 型号属性\n 诺基亚 品牌属性\n 手机 产品属性\n[0119] 步骤56,针对每个关键词单元,分别获得预先确定的、该关键词单元的商业属性所对应的商业属性模型,并判断该关键词单元是否在获得的商业属性模型中。\n[0120] 预先针对每个商业属性,分别设定该商业属性对应的商业属性模型,商业属性模型中包含多个该商业属性对应的关键词单元。例如,产品属性对应的商业属性模型为产品商业属性模型,其中包含多个商业属性为产品属性对应的关键词单元;品牌属性对应的商业属性模型为品牌商业属性模型,其中包含多个商业属性为品牌属性对应的关键词单元;\n型号属性对应的商业属性模型为型号商业属性模型,其中包含多个商业属性为型号属性对应的关键词单元。\n[0121] 步骤57,将判断结果为是的各关键词单元,确定为所述搜索关键词的中心词。\n[0122] 若关键词单元在对应的商业属性模型中,且该关键词单元并不是词性为名词的关键词单元,则可以将该关键词单元确认为中心词,若关键词单元在对应的商业属性模型中,但是该关键词单元是词性为名词的关键词单元,那么本申请实施例一已经将其确认为中心词,那么此时可以不做任何处理。\n[0123] 本申请实施例四提出,将所有判断结果为是的关键词单元确认为中心词之后,还可以执行下述步骤:\n[0124] 针对每个关键词单元,分别将该关键词单元与商业属性不同的其他各关键词单元进行组合,得到各关键词单元组合。例如,针对表九中的关键词单元“n73”,得到两个关键词单元组合,分别为:“n73:诺基亚”和“n73:手机”。\n[0125] 预先设定各商业属性搭配模型,每个商业属性搭配模型分别对应一种商业属性搭配类型,若商业属性为品牌属性的关键词单元与商业属性为型号属性的关键词单元进行组合,那么组合得到的关键词单元组合对应的商业属性搭配类型就为品牌*型号商业属性搭配类型;若商业属性为品牌属性的关键词单元与商业属性为产品属性的关键词单元进行组合,那么组合得到的关键词单元组合对应的商业属性搭配类型就为品牌*产品商业属性搭配类型;若商业属性为型号属性的关键词单元与商业属性为产品属性的关键词单元进行组合,那么组合得到的关键词单元组合对应的商业属性搭配类型就为型号*产品商业属性搭配类型。\n[0126] 每种商业属性搭配类型都对应一个商业属性搭配模型,商业属性搭配模型中包含商业属性搭配类型为该类型的各关键词单元组合。例如,品牌*型号商业属性类型对应品牌*型号商业属性搭配模型,品牌*型号商业属性搭配模型中包含各商业属性为品牌和型号的关键词单元组成得到的各关键词单元组合。\n[0127] 得到各关键词单元组合后,再针对每个关键词组合,分别确定该关键词单元组合所对应的商业属性搭配类型,以及获得预先确定的、所述商业属性搭配类型对应的商业属性搭配模型,并判断该关键词单元组合是否出现在所述商业属性搭配模型中,将判断结果为是的各关键词单元组合,确定为所述搜索关键词的中心词。\n[0128] 根据本申请实施例一、实施例二和实施例四提出的方法确定出各中心词后,还可以进行去重操作,将相同的中心词合并为一个。\n[0129] 实施例五\n[0130] 相应的,本申请实施例五提供一种搜索方法,包括:\n[0131] 接收用户输入的搜索关键词;\n[0132] 根据上述确定中心词的方法,确定所述搜索关键词的中心词;\n[0133] 根据确定出的所述搜索关键词的中心词,进行搜索,并返回搜索结果。\n[0134] 实施例六\n[0135] 相应的,本申请实施例六提供一种确定中心词的装置,其结构如图6所示,包括关键词划分单元61、词性确定单元62、关键词提取单元63和第一中心词确定单元64,其中:\n[0136] 关键词划分单元61,用于将用户输入的搜索关键词划分为各关键词单元;\n[0137] 词性确定单元62,用于确定关键词划分单元61划分出的各关键词单元的词性;\n[0138] 关键词提取单元63,用于从关键词划分单元61划分出的各关键词单元中,提取出词性为名词的关键词单元;\n[0139] 第一中心词确定单元64,用于将关键词提取单元63提取出的关键词单元确定为所述搜索关键词的中心词。\n[0140] 较佳地,还包括第一关键词组合单元和第二中心词确定单元,其中:\n[0141] 第一关键词组合单元,用于针对关键词提取单元63提取出的每个关键词单元,分别将该关键词单元与词性为预定词性的关键词单元进行组合,得到各关键词单元组合;\n[0142] 第二中心词确定单元,用于将第一关键词组合单元得到的各关键词单元组合,确定为所述搜索关键词的中心词。\n[0143] 更佳地,还包括词性搭配类型确定单元、词性搭配模型获得单元和第一判断单元,其中:\n[0144] 词性搭配类型确定单元,用于在第二中心词确定单元将第一关键词组合单元得到的各关键词单元组合,确定为所述搜索关键词的中心词之前,针对第一关键词组合单元得到的每个关键词单元组合,分别确定该关键词单元组合所对应的词性搭配类型;\n[0145] 词性搭配模型获得单元,用于获得预先确定的、词性搭配类型确定单元确定的词性搭配类型对应的词性搭配模型;\n[0146] 第一判断单元,用于判断该关键词单元组合是否出现在所述词性搭配模型中;\n[0147] 第二中心词确定单元,具体用于将第一判断单元判断得到出现在所述词性搭配模型中的各关键词单元组合,确定为所述搜索关键词的中心词。\n[0148] 更佳地,还包括权重值及次数获得单元和第二判断单元,其中:\n[0149] 权重值及次数获得单元,用于在第二中心词确定单元将第一判断单元判断得到出现在所述词性搭配模型中的各关键词单元组合,确定为所述搜索关键词的中心词之前,针对第一判断单元判断得到出现在所述词性搭配模型中的各关键词单元组合,分别获得预先确定的、该关键词单元组合中词性为名词的关键词单元在所述词性搭配模型中的权重值以及该关键词单元组合在所述词性搭配模型中出现的次数;\n[0150] 第二判断单元,用于判断权重值及次数获得单元获得的次数是否大于权重值及次数获得单元获得的权重值的预设倍数;\n[0151] 第二中心词确定单元,具体用于将第二判断单元判断出所述次数大于所述权重值的预设倍数的各关键词单元组合,确定为所述搜索关键词的中心词。\n[0152] 较佳地,还包括第三判断单元,用于在关键词提取单元63提取出词性为名词的关键词单元之前,判断所述搜索关键词的字符数以及划分出的关键词单元的数量是否满足预设条件;\n[0153] 关键词提取单元63,具体用于在第三判断单元的判断结果为是时,执行提取出词性为名词的关键词单元的操作。\n[0154] 较佳地,还包括商业属性确定单元、商业属性模型获得单元、第四判断单元和第三中心词确定单元,其中:\n[0155] 商业属性确定单元,用于确定关键词划分单元61划分出的各关键词单元的商业属性;\n[0156] 商业属性模型获得单元,用于针对每个关键词单元,分别获得预先确定的、该关键词单元的商业属性所对应的商业属性模型;\n[0157] 第四判断单元,用于判断该关键词单元是否在商业属性模型获得单元获得的商业属性模型中;\n[0158] 第三中心词确定单元,用于将第四判断单元判断结果为是的各关键词单元,确定为所述搜索关键词的中心词。\n[0159] 更佳地,还包括第二关键词组合单元、商业属性搭配类型确定单元、商业属性搭配模型获得单元、第五判断单元和第四中心词确定单元,其中:\n[0160] 第二关键词组合单元,用于针对每个关键词单元,分别将该关键词单元与商业属性不同的其他各关键词单元进行组合,得到各关键词单元组合;\n[0161] 商业属性搭配类型确定单元,用于针对第二关键词组合单元得到的每个关键词单元组合,分别确定该关键词单元组合所对应的商业属性搭配类型;\n[0162] 商业属性搭配模型获得单元,用于获得预先确定的、商业属性搭配类型确定单元确定的商业属性搭配类型对应的商业属性搭配模型;\n[0163] 第五判断单元,用于判断该关键词单元组合是否出现在商业属性搭配模型获得单元获得的商业属性搭配模型中;\n[0164] 第四中心词确定单元,用于将第五判断单元的判断结果为是的各关键词单元组合,确定为所述搜索关键词的中心词。\n[0165] 实施例七\n[0166] 相应的,本申请实施例七提供一种搜索装置,包括:\n[0167] 接收单元,用于接收用户输入的搜索关键词;\n[0168] 上述的确定中心词的装置,用于确定所述搜索关键词的中心词;\n[0169] 搜索单元,用于根据确定出的所述搜索关键词的中心词,进行搜索,并返回搜索结果。\n[0170] 本领域的技术人员应明白,本申请的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。\n[0171] 本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。\n[0172] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。\n[0173] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。\n[0174] 尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
法律信息
- 2015-12-02
- 2013-06-26
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201110369651.4
申请日: 2011.11.18
- 2013-05-29
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2009-08-19
|
2009-04-08
| | |
2
| |
2008-06-11
|
2007-08-21
| | |
3
| | 暂无 |
2007-07-09
| | |
4
| | 暂无 |
2007-02-14
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |