首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种用于在Spark环境中实现分区负载均衡的方法和系统

发明专利有效专利
  • 申请号:
    CN201911294970.6
  • IPC分类号:G06F16/27G06F16/22
  • 申请日期:
    2019-12-16
  • 申请人:
    湖南大学
著录项信息
专利名称一种用于在Spark环境中实现分区负载均衡的方法和系统
申请号CN201911294970.6申请日期2019-12-16
法律状态实质审查申报国家中国
公开/公告日2020-04-03公开/公告号CN110955732A
优先权暂无优先权号暂无
主分类号G06F16/27IPC分类号G06F16/27;G06F16/22查看分类表>
申请人湖南大学申请人地址
湖南省长沙市岳麓区麓山南路*** 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人湖南大学当前权利人湖南大学
发明人唐卓;刘翔;李肯立;杜利凡;贺凯林;李文;张学东;阳王东;周旭;刘楚波;曹嵘晖
代理机构武汉臻诚专利代理事务所(普通合伙)代理人宋业斌
摘要
本发明公开了一种用于在Spark环境中实现分区负载均衡的方法,包括:接收用户发送的Spark应用程序,对该Spark应用程序进行解析,以得到表征多个弹性分布式数据集RDD之间关系的RDD图、以及调度阶段的有向无环图DAG,根据DAG图依次确定每两个相邻调度阶段之间的依赖关系,并对得到的所有依赖关系中的宽依赖关系进行编号,设置计数器cnt=1,判断cnt是否大于宽依赖关系的总数,如果不是则对第cnt个宽依赖关系对应的Map端中最后一个RDD中的所有分区中的数据进行采样,以得到表征数据键分布的、每个分区对应的哈希表,将得到的所有分区对应的哈希表进行合并。本发明能够在解决大数据计算中数据倾斜问题的同时,优化计算资源的分配,缩短程序运行时间。

专利服务由北京酷爱智慧知识产权代理公司提供