著录项信息
专利名称 | 一种高效的大数据查询方法 |
申请号 | CN201410545402.X | 申请日期 | 2014-10-15 |
法律状态 | 暂无 | 申报国家 | 暂无 |
公开/公告日 | 2015-01-14 | 公开/公告号 | CN104281698A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 国云科技股份有限公司 | 申请人地址 | 广东省东莞市松山湖高新技术产业开发区科汇路1号中科院云计算中心19楼
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 国云科技股份有限公司 | 当前权利人 | 国云科技股份有限公司 |
发明人 | 胡文彬;艾建文;季统凯 |
代理机构 | 广东莞信律师事务所 | 代理人 | 余伦 |
摘要
本发明涉及大数据查询技术领域,特别是涉及一种高效的大数据查询方法。本发明在历史查询库中保存了词的历史查询记录;用户输入查询请求时,系统首先分析用户的查询意图,并提供候选关键词供用户选择,用户确定最终的查询关键词后,系统对关键词进行分词处理,从关键词中提取出主词和辅词;系统将主词与历史查询库执行匹配操作,匹配后,将符合的历史查询库结果和新数据的查询结果合并,产生合并结果集,若有辅词,则在合并结果集上继续查询,得到最终查询结果;若无辅词,则直接将合并结果集作为查询结果返回给用户;最后更新历史查询库。本发明节省了大数据搜索时间,提高了查询效率;可以用于大数据的查询上。
1.一种高效的大数据查询方法,其特征在于:在历史查询库中保存主词的历史查询记录;用户输入查询请求时,首先分析用户的查询意图,并提供候选关键词供用户选择;用户确定最终的查询关键词后,对关键词进行分词处理,从关键词中提取出主词和辅词;系统将主词与历史查询库执行匹配操作,若匹配,则将符合的历史查询库结果和新数据的查询结果合并,产生合并结果集;如有辅词,则在合并结果集上继续查询,得到最终查询结果;如无辅词,则直接将合并结果集作为查询结果返回给用户;若不匹配,则全库执行全新查询后将结果返回给用户;最后更新历史查询库;
所述的查询方法详细流程为:
第一步,用户通过系统输入查询关键词;
第二步,系统通过分析用户的查询请求意图,提供相近的候选查询关键词供用户选择,若用户不选择候选查询关键词,则将用户输入的查询关键词作为本次查询的关键词;用户确定最终的查询关键词后,系统对关键词进行分词处理,提取出主词和辅词;
第三步,系统将分词处理后的主、辅词和历史查询库进行匹配处理,历史查询库只保存主词的历史查询结果,匹配的过程会出现3种情况:
(1)全匹配:如果是全匹配,则表明用户的查询关键词只有主词,且该主词以前出现过,在历史查询库中有相应的历史查询结果,因此,历史查询库的历史查询结果可以直接为本次查询使用,即共享历史查询库结果;同时,由于历史查询库只是保存某段时间之前的查询数据,有可能在该历史查询后又有新的数据产生,所以对于历史查询库最后时间点之后新增的数据,仍然需要执行查询,最后将新增数据的查询结果和历史查询库的共享结果合并,形成合并结果集,即是用户本次查询的结果;
(2)部分匹配:如果是部分匹配,则表明用户输入的查询关键词提取出了主词和辅词,其中主词以前出现过,在历史查询库中有相应的历史查询结果,因此,历史查询库的历史查询结果可以直接为本次查询使用,即共享历史查询库结果;同时,由于历史查询库只是保存某段时间之前的查询数据,有可能在该历史查询后又有新的数据产生,所以对于历史查询库最后时间点之后新增的数据,仍然需要执行查询,然后将新增数据的查询结果和历史查询库的共享结果合并,形成合并结果集;最后在合并结果集中继续对辅词进行查询,得出用户本次查询的结果;
(3)完全不匹配:如果是完全不匹配,则表明用户输入的查询关键词没有任何历史查询记录,在历史查询库中不存在,这种情况则需要对全库执行全新的查询处理,最终得到用户本次查询的结果;
第四步,将用户本次查询的结果返回给用户;
第五步,更新历史查询库中对应主词的查询记录。
2.根据权利要求1所述的高效的大数据查询方法,其特征在于:
提取主词和辅词的具体方法为:
系统采用开源的分词工具ICTCLAS,对用户确定的查询关键词进行分词处理,分词后的关键词都带有形容词、动词、名词词性标注,其中,动词和名词对主题表达的贡献度最大,所以可将动词和名词作为主词,其他词则作为辅词。
3.根据权利要求1或2所述的高效的大数据查询方法,其特征在于:
提供相近候选查询关键词的具体方法为:
系统通过和历史查询库进行模糊匹配的方式,分析用户的查询请求意图,提供相近的候选查询关键词。
一种高效的大数据查询方法\n技术领域\n[0001] 本发明涉及大数据查询技术领域,特别是涉及一种高效的大数据查询方法。\n背景技术\n[0002] 随着大数据时代的到来,面对日益增长的海量数据,如何更好的处理大数据,满足用户对大数据查询的高效、准确及个性化等需求,逐渐引起人们的关注。虽然针对大数据处理已经有很多新的技术或方法,但是从大数据中获取满足用户查询需求的数据,仍然需要花费较长的时间,而对于大数据交互式的查询效率,更是一个巨大的挑战。\n发明内容\n[0003] 本发明解决的技术问题在于提供一种高效的大数据查询方法,可节省大数据处理时间,实现高效的大数据查询。\n[0004] 本发明解决上述技术问题的技术方案是:\n[0005] 在历史查询库中保存主词的历史查询记录;用户输入查询请求时,首先分析用户的查询意图,并提供候选关键词供用户选择;用户确定最终的查询关键词后,对关键词进行分词处理,从关键词中提取出主词和辅词;系统将主词与历史查询库执行匹配操作,若匹配,则将符合的历史查询库结果和新数据的查询结果合并,产生合并结果集;如有辅词,则在合并结果集上继续查询,得到最终查询结果;如无辅词,则直接将合并结果集作为查询结果返回给用户;若不匹配,则全库执行全新查询后将结果返回给用户;最后更新历史查询库。\n[0006] 所述的查询方法详细流程为:\n[0007] 第一步,用户通过系统输入查询关键词;\n[0008] 第二步,系统通过分析用户的查询请求意图,提供相近的候选查询关键词供用户选择,若用户不选择候选查询关键词,则将用户输入的查询关键词作为本次查询的关键词;\n用户确定最终的查询关键词后,系统对关键词进行分词处理,提取出主词和辅词;\n[0009] 第三步,系统将分词处理后的主、辅词和历史查询库进行匹配处理,历史查询库只保存主词的历史查询结果,匹配的过程可能出现3种情况:\n[0010] (1)全匹配:如果是全匹配,则表明用户的查询关键词只有主词,且该主词以前出现过,在历史共享库中有相应的历史查询结果,因此,历史库的历史查询结果可以直接为本次查询使用,即共享历史查询库结果;同时,由于历史查询库只是保存某段时间之前的查询数据,有可能在该历史查询后又有新的数据产生,所以对于历史查询库最后时间点之后新增的数据,仍然需要执行查询,最后将新增数据的查询结果和历史查询库的共享结果合并,形成合并结果集,即是用户本次查询的结果;\n[0011] (2)部分匹配:如果是部分匹配,则表明用户输入的查询关键词提取出了主词和辅词,其中主词以前出现过,在历史共享库中有相应的历史查询结果,因此,历史库的历史查询结果可以直接为本次查询使用,即共享历史查询库结果;同时,由于历史查询库只是保存某段时间之前的查询数据,有可能在该历史查询后又有新的数据产生,所以对于历史查询库最后时间点之后新增的数据,仍然需要执行查询,然后将新增数据的查询结果和历史查询库的共享结果合并,形成合并结果集;最后在合并结果集中继续对辅词进行查询,得出用户本次查询的结果;\n[0012] (3)完全不匹配:如果是完全不匹配,则表明用户输入的查询关键词没有任何历史查询记录,在历史查询库中不存在,这种情况则需要对全库执行全新的查询处理,最终得到用户本次查询的结果;\n[0013] 第四步,将用户本次查询的结果返回给用户;\n[0014] 第五步,更新历史查询库中对应主词的查询记录。\n[0015] 所述的提取主词和辅词的具体方法为:\n[0016] 系统采用开源的分词工具ICTCLAS,对用户确定的查询关键词进行分词处理,分词后的关键词都带有形容词、动词、名词等词性标注,其中,动词和名词对主题表达的贡献度最大,所以可将动词和名词作为主词,其他词则作为辅词。\n[0017] 所述的提供相近候选查询关键词的具体方法为:\n[0018] 系统通过和历史查询库进行模糊匹配的方式,分析用户的查询请求意图,提供相近的候选查询关键词。\n[0019] 本发明通过对用户查询的关键词进行分词处理,并通过共享历史查询库的历史查询结果,使其具有如下优点:(1)分词匹配,查询更精确;(2)共享历史查询库,减少重复查询操作;(3)节省大数据搜索时间,提高了查询效率。\n附图说明\n[0020] 下面结合附图对本发明进一步说明:\n[0021] 图1是本发明的处理流程示意图。\n具体实施方式\n[0022] 如图1所示,本发明的详细流程为:\n[0023] 第一步,用户通过系统输入查询关键词;\n[0024] 第二步,系统通过分析用户的查询请求意图,提供相近的候选查询关键词供用户选择,若用户不选择候选查询关键词,则将用户输入的查询关键词作为本次查询的关键词;\n用户确定最终的查询关键词后,系统对关键词进行分词处理,提取出主词和辅词;\n[0025] 其中,提供相近候选查询关键词的具体方法为:\n[0026] 系统通过和历史查询库进行模糊匹配的方式,分析用户的查询请求意图,提供相近的候选查询关键词,例如用户输入“车”,系统会根据历史查询库中已有的历史查询关键词记录,提供候选关键词“汽车”、“自行车”等,供用户选择;\n[0027] 提取主词和辅词的具体方法为:\n[0028] 系统采用开源的分词工具ICTCLAS,对用户确定的查询关键词进行分词处理,分词后的关键词都带有词性标注,如形容词、动词、名词等,其中,动词和名词对主题表达的贡献度最大,所以可将动词和名词作为主词,其他词则作为辅词;例如用户确定的查询关键词为“红色的苹果”,分词后为“红色/的/苹果”,则提取“苹果”为主词,“红色”为辅词;\n[0029] 第三步,系统将分词处理后的主、辅词和历史查询库进行匹配处理,历史查询库只保存主词的历史查询结果,匹配的过程可能出现3种情况:\n[0030] (1)全匹配:如果是全匹配,则表明用户的查询关键词只有主词,且该主词以前出现过,在历史共享库中有相应的历史查询结果,因此,历史库的历史查询结果可以直接为本次查询使用,即共享历史查询库结果;同时,由于历史查询库只是保存某段时间之前的查询数据,有可能在该历史查询后又有新的数据产生,所以对于历史查询库最后时间点之后新增的数据,仍然需要执行查询,最后将新增数据的查询结果和历史查询库的共享结果合并,形成合并结果集,即是用户本次查询的结果;\n[0031] (2)部分匹配:如果是部分匹配,则表明用户输入的查询关键词提取出了主词和辅词,其中主词以前出现过,在历史共享库中有相应的历史查询结果,因此,历史库的历史查询结果可以直接为本次查询使用,即共享历史查询库结果;同时,由于历史查询库只是保存某段时间之前的查询数据,有可能在该历史查询后又有新的数据产生,所以对于历史查询库最后时间点之后新增的数据,仍然需要执行查询,然后将新增数据的查询结果和历史查询库的共享结果合并,形成合并结果集;最后在合并结果集中继续对辅词进行查询,得出用户本次查询的结果;\n[0032] (3)完全不匹配:如果是完全不匹配,则表明用户输入的查询关键词没有任何历史查询记录,在历史查询库中不存在,这种情况则需要对全库执行全新的查询处理,最终得到用户本次查询的结果;\n[0033] 第四步,将用户本次查询的结果返回给用户;\n[0034] 第五步,更新历史查询库中对应主词的查询记录。
法律信息
- 2018-12-04
专利权人的姓名或者名称、地址的变更
专利权人由国云科技股份有限公司变更为国云科技股份有限公司
地址由523808 广东省东莞市松山湖科技产业园区松科苑14号楼变更为523808 广东省东莞市松山湖高新技术产业开发区科汇路1号中科院云计算中心19楼
- 2017-07-07
- 2015-02-11
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201410545402.X
申请日: 2014.10.15
- 2015-01-14
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2009-09-23
|
2008-03-19
| | |
2
| |
2013-04-24
|
2011-10-19
| | |
3
| |
2014-08-06
|
2013-01-28
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |