一种高效的大数据查询方法

发明专利有效专利

申请号：
CN201410545402.X
IPC分类号：G06F17/30
申请日期：
2014-10-15
申请人：
国云科技股份有限公司

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	一种高效的大数据查询方法
申请号	CN201410545402.X	申请日期	2014-10-15
法律状态	暂无	申报国家	暂无
公开/公告日	2015-01-14	公开/公告号	CN104281698A
优先权	暂无	优先权号	暂无
主分类号	G06F17/30 ? IPC结构图谱： G 物理 G0 仪器 G06 计算；推算；计数 G06F 电数字数据处理（基于特定计算模型的计算机系统入G06N） G06F17/00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法〔6〕 G06F17/30 信息检索；及其数据库结构〔6〕	IPC分类号	G;0;6;F;1;7;/;3;0查看分类表>
申请人	国云科技股份有限公司	申请人地址	广东省东莞市松山湖高新技术产业开发区科汇路1号中科院云计算中心19楼变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	国云科技股份有限公司	当前权利人	国云科技股份有限公司
发明人	胡文彬;艾建文;季统凯
代理机构	广东莞信律师事务所	代理人	余伦

摘要

本发明涉及大数据查询技术领域，特别是涉及一种高效的大数据查询方法。本发明在历史查询库中保存了词的历史查询记录；用户输入查询请求时，系统首先分析用户的查询意图，并提供候选关键词供用户选择，用户确定最终的查询关键词后，系统对关键词进行分词处理，从关键词中提取出主词和辅词；系统将主词与历史查询库执行匹配操作，匹配后，将符合的历史查询库结果和新数据的查询结果合并，产生合并结果集，若有辅词，则在合并结果集上继续查询，得到最终查询结果；若无辅词，则直接将合并结果集作为查询结果返回给用户；最后更新历史查询库。本发明节省了大数据搜索时间，提高了查询效率；可以用于大数据的查询上。

1.一种高效的大数据查询方法，其特征在于：在历史查询库中保存主词的历史查询记录；用户输入查询请求时，首先分析用户的查询意图，并提供候选关键词供用户选择；用户确定最终的查询关键词后，对关键词进行分词处理，从关键词中提取出主词和辅词；系统将主词与历史查询库执行匹配操作，若匹配，则将符合的历史查询库结果和新数据的查询结果合并，产生合并结果集；如有辅词，则在合并结果集上继续查询，得到最终查询结果；如无辅词，则直接将合并结果集作为查询结果返回给用户；若不匹配，则全库执行全新查询后将结果返回给用户；最后更新历史查询库；
所述的查询方法详细流程为：
第一步，用户通过系统输入查询关键词；
第二步，系统通过分析用户的查询请求意图，提供相近的候选查询关键词供用户选择，若用户不选择候选查询关键词，则将用户输入的查询关键词作为本次查询的关键词；用户确定最终的查询关键词后，系统对关键词进行分词处理，提取出主词和辅词；
第三步，系统将分词处理后的主、辅词和历史查询库进行匹配处理，历史查询库只保存主词的历史查询结果，匹配的过程会出现3种情况：
(1)全匹配：如果是全匹配，则表明用户的查询关键词只有主词，且该主词以前出现过，在历史查询库中有相应的历史查询结果，因此，历史查询库的历史查询结果可以直接为本次查询使用，即共享历史查询库结果；同时，由于历史查询库只是保存某段时间之前的查询数据，有可能在该历史查询后又有新的数据产生，所以对于历史查询库最后时间点之后新增的数据，仍然需要执行查询，最后将新增数据的查询结果和历史查询库的共享结果合并，形成合并结果集，即是用户本次查询的结果；
(2)部分匹配：如果是部分匹配，则表明用户输入的查询关键词提取出了主词和辅词，其中主词以前出现过，在历史查询库中有相应的历史查询结果，因此，历史查询库的历史查询结果可以直接为本次查询使用，即共享历史查询库结果；同时，由于历史查询库只是保存某段时间之前的查询数据，有可能在该历史查询后又有新的数据产生，所以对于历史查询库最后时间点之后新增的数据，仍然需要执行查询，然后将新增数据的查询结果和历史查询库的共享结果合并，形成合并结果集；最后在合并结果集中继续对辅词进行查询，得出用户本次查询的结果；
(3)完全不匹配：如果是完全不匹配，则表明用户输入的查询关键词没有任何历史查询记录，在历史查询库中不存在，这种情况则需要对全库执行全新的查询处理，最终得到用户本次查询的结果；
第四步，将用户本次查询的结果返回给用户；
第五步，更新历史查询库中对应主词的查询记录。
2.根据权利要求1所述的高效的大数据查询方法，其特征在于：
提取主词和辅词的具体方法为：
系统采用开源的分词工具ICTCLAS，对用户确定的查询关键词进行分词处理，分词后的关键词都带有形容词、动词、名词词性标注，其中，动词和名词对主题表达的贡献度最大，所以可将动词和名词作为主词，其他词则作为辅词。
3.根据权利要求1或2所述的高效的大数据查询方法，其特征在于：
提供相近候选查询关键词的具体方法为：
系统通过和历史查询库进行模糊匹配的方式，分析用户的查询请求意图，提供相近的候选查询关键词。

一种高效的大数据查询方法\n技术领域\n[0001] 本发明涉及大数据查询技术领域，特别是涉及一种高效的大数据查询方法。\n背景技术\n[0002] 随着大数据时代的到来，面对日益增长的海量数据，如何更好的处理大数据，满足用户对大数据查询的高效、准确及个性化等需求，逐渐引起人们的关注。虽然针对大数据处理已经有很多新的技术或方法，但是从大数据中获取满足用户查询需求的数据，仍然需要花费较长的时间，而对于大数据交互式的查询效率，更是一个巨大的挑战。\n发明内容\n[0003] 本发明解决的技术问题在于提供一种高效的大数据查询方法，可节省大数据处理时间，实现高效的大数据查询。\n[0004] 本发明解决上述技术问题的技术方案是：\n[0005] 在历史查询库中保存主词的历史查询记录；用户输入查询请求时，首先分析用户的查询意图，并提供候选关键词供用户选择；用户确定最终的查询关键词后，对关键词进行分词处理，从关键词中提取出主词和辅词；系统将主词与历史查询库执行匹配操作，若匹配，则将符合的历史查询库结果和新数据的查询结果合并，产生合并结果集；如有辅词，则在合并结果集上继续查询，得到最终查询结果；如无辅词，则直接将合并结果集作为查询结果返回给用户；若不匹配，则全库执行全新查询后将结果返回给用户；最后更新历史查询库。\n[0006] 所述的查询方法详细流程为：\n[0007] 第一步，用户通过系统输入查询关键词；\n[0008] 第二步，系统通过分析用户的查询请求意图，提供相近的候选查询关键词供用户选择，若用户不选择候选查询关键词，则将用户输入的查询关键词作为本次查询的关键词；\n用户确定最终的查询关键词后，系统对关键词进行分词处理，提取出主词和辅词；\n[0009] 第三步，系统将分词处理后的主、辅词和历史查询库进行匹配处理，历史查询库只保存主词的历史查询结果，匹配的过程可能出现3种情况：\n[0010] (1)全匹配：如果是全匹配，则表明用户的查询关键词只有主词，且该主词以前出现过，在历史共享库中有相应的历史查询结果，因此，历史库的历史查询结果可以直接为本次查询使用，即共享历史查询库结果；同时，由于历史查询库只是保存某段时间之前的查询数据，有可能在该历史查询后又有新的数据产生，所以对于历史查询库最后时间点之后新增的数据，仍然需要执行查询，最后将新增数据的查询结果和历史查询库的共享结果合并，形成合并结果集，即是用户本次查询的结果；\n[0011] (2)部分匹配：如果是部分匹配，则表明用户输入的查询关键词提取出了主词和辅词，其中主词以前出现过，在历史共享库中有相应的历史查询结果，因此，历史库的历史查询结果可以直接为本次查询使用，即共享历史查询库结果；同时，由于历史查询库只是保存某段时间之前的查询数据，有可能在该历史查询后又有新的数据产生，所以对于历史查询库最后时间点之后新增的数据，仍然需要执行查询，然后将新增数据的查询结果和历史查询库的共享结果合并，形成合并结果集；最后在合并结果集中继续对辅词进行查询，得出用户本次查询的结果；\n[0012] (3)完全不匹配：如果是完全不匹配，则表明用户输入的查询关键词没有任何历史查询记录，在历史查询库中不存在，这种情况则需要对全库执行全新的查询处理，最终得到用户本次查询的结果；\n[0013] 第四步，将用户本次查询的结果返回给用户；\n[0014] 第五步，更新历史查询库中对应主词的查询记录。\n[0015] 所述的提取主词和辅词的具体方法为：\n[0016] 系统采用开源的分词工具ICTCLAS，对用户确定的查询关键词进行分词处理，分词后的关键词都带有形容词、动词、名词等词性标注，其中，动词和名词对主题表达的贡献度最大，所以可将动词和名词作为主词，其他词则作为辅词。\n[0017] 所述的提供相近候选查询关键词的具体方法为：\n[0018] 系统通过和历史查询库进行模糊匹配的方式，分析用户的查询请求意图，提供相近的候选查询关键词。\n[0019] 本发明通过对用户查询的关键词进行分词处理，并通过共享历史查询库的历史查询结果，使其具有如下优点：(1)分词匹配，查询更精确；(2)共享历史查询库，减少重复查询操作；(3)节省大数据搜索时间，提高了查询效率。\n附图说明\n[0020] 下面结合附图对本发明进一步说明：\n[0021] 图1是本发明的处理流程示意图。\n具体实施方式\n[0022] 如图1所示，本发明的详细流程为：\n[0023] 第一步，用户通过系统输入查询关键词；\n[0024] 第二步，系统通过分析用户的查询请求意图，提供相近的候选查询关键词供用户选择，若用户不选择候选查询关键词，则将用户输入的查询关键词作为本次查询的关键词；\n用户确定最终的查询关键词后，系统对关键词进行分词处理，提取出主词和辅词；\n[0025] 其中，提供相近候选查询关键词的具体方法为：\n[0026] 系统通过和历史查询库进行模糊匹配的方式，分析用户的查询请求意图，提供相近的候选查询关键词，例如用户输入“车”，系统会根据历史查询库中已有的历史查询关键词记录，提供候选关键词“汽车”、“自行车”等，供用户选择；\n[0027] 提取主词和辅词的具体方法为：\n[0028] 系统采用开源的分词工具ICTCLAS，对用户确定的查询关键词进行分词处理，分词后的关键词都带有词性标注，如形容词、动词、名词等，其中，动词和名词对主题表达的贡献度最大，所以可将动词和名词作为主词，其他词则作为辅词；例如用户确定的查询关键词为“红色的苹果”，分词后为“红色/的/苹果”，则提取“苹果”为主词，“红色”为辅词；\n[0029] 第三步，系统将分词处理后的主、辅词和历史查询库进行匹配处理，历史查询库只保存主词的历史查询结果，匹配的过程可能出现3种情况：\n[0030] (1)全匹配：如果是全匹配，则表明用户的查询关键词只有主词，且该主词以前出现过，在历史共享库中有相应的历史查询结果，因此，历史库的历史查询结果可以直接为本次查询使用，即共享历史查询库结果；同时，由于历史查询库只是保存某段时间之前的查询数据，有可能在该历史查询后又有新的数据产生，所以对于历史查询库最后时间点之后新增的数据，仍然需要执行查询，最后将新增数据的查询结果和历史查询库的共享结果合并，形成合并结果集，即是用户本次查询的结果；\n[0031] (2)部分匹配：如果是部分匹配，则表明用户输入的查询关键词提取出了主词和辅词，其中主词以前出现过，在历史共享库中有相应的历史查询结果，因此，历史库的历史查询结果可以直接为本次查询使用，即共享历史查询库结果；同时，由于历史查询库只是保存某段时间之前的查询数据，有可能在该历史查询后又有新的数据产生，所以对于历史查询库最后时间点之后新增的数据，仍然需要执行查询，然后将新增数据的查询结果和历史查询库的共享结果合并，形成合并结果集；最后在合并结果集中继续对辅词进行查询，得出用户本次查询的结果；\n[0032] (3)完全不匹配：如果是完全不匹配，则表明用户输入的查询关键词没有任何历史查询记录，在历史查询库中不存在，这种情况则需要对全库执行全新的查询处理，最终得到用户本次查询的结果；\n[0033] 第四步，将用户本次查询的结果返回给用户；\n[0034] 第五步，更新历史查询库中对应主词的查询记录。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
1	CN101539918A	2009-09-23	2008-03-19	一种互联网搜索方法及系统无效专利	天下互联(北京)科技有限公司
2	CN103064838A	2013-04-24	2011-10-19	数据搜索方法和装置有效专利	阿里巴巴集团控股有限公司
3	CN103970761A	2014-08-06	2013-01-28	一种商品数据搜索方法及装置有效专利	阿里巴巴集团控股有限公司

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供