加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种在基于HDFS的spark-sql大数据处理系统上建立索引的方法

发明专利有效专利
  • 申请号:
    CN201510918956.4
  • IPC分类号:G06F16/13;G06F16/14;G06F16/22
  • 申请日期:
    2015-12-10
  • 申请人:
    深圳市华讯方舟软件技术有限公司;深圳市华讯方舟科技有限公司
著录项信息
专利名称一种在基于HDFS的spark-sql大数据处理系统上建立索引的方法
申请号CN201510918956.4申请日期2015-12-10
法律状态暂无申报国家中国
公开/公告日2016-05-11公开/公告号CN105574093A
优先权暂无优先权号暂无
主分类号G06F16/13IPC分类号G;0;6;F;1;6;/;1;3;;;G;0;6;F;1;6;/;1;4;;;G;0;6;F;1;6;/;2;2查看分类表>
申请人深圳市华讯方舟软件技术有限公司;深圳市华讯方舟科技有限公司申请人地址
广东省深圳市宝安区西乡街道宝田一路臣田工业区第37栋3楼 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人深圳市华讯方舟软件技术有限公司,华讯方舟科技有限公司当前权利人深圳市华讯方舟软件技术有限公司,华讯方舟科技有限公司
发明人张鋆;冯骏
代理机构北京律和信知识产权代理事务所(普通合伙)代理人刘国伟;武玉琴
摘要
本发明公开了一种在基于HDFS的spark‑sql大数据处理系统上建立索引的方法,通过SQL语句在基于HDFS的spark‑sql大数据处理系统上增加索引,删除索引,插入数据,删除数据,在数据查询的时候,自动判断查询列是否存在索引,如果存在,则查找索引包含的文件块,过滤不需要查询的文件块。本发明对在给spark‑sql增加索引功能后,能有效增加查询速度,例如一个典型的spark‑sql数据表,大小为1000GB,1GB一个文件存放,分为1000个文件,如果查询单条记录,原先做法需要扫描1000个文件,建立索引后,只需要扫描1个文件即可,效率提高1000倍。按照一般情况估算,结合传统的关系型数据库经验,建立索引的spark‑sql数据库比没有索引的sql语句查询速度执行要快100‑10000倍或更多。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供