加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种基于MapReduce的大规模数据分布式聚类处理方法

发明专利有效专利
  • 申请号:
    CN201710412014.8
  • IPC分类号:G06F16/26
  • 申请日期:
    2017-06-02
  • 申请人:
    东北大学
著录项信息
专利名称一种基于MapReduce的大规模数据分布式聚类处理方法
申请号CN201710412014.8申请日期2017-06-02
法律状态授权申报国家中国
公开/公告日2017-10-24公开/公告号CN107291847A
优先权暂无优先权号暂无
主分类号G06F16/26IPC分类号G;0;6;F;1;6;/;2;6查看分类表>
申请人东北大学申请人地址
辽宁省沈阳市和平区文化路3号巷11号 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人东北大学当前权利人东北大学
发明人高天寒;孔雪
代理机构沈阳东大知识产权代理有限公司代理人胡晓男
摘要
本发明提供一种基于MapReduce的大规模数据分布式聚类处理方法,包括对大规模数据以等规模不重复的原则进行抽样;向MapReduce分布式并行框架输入抽样数据并计算抽样数据的局部密度和平均密度;找出局部密度大于平均密度的所有抽样数据作为每个簇的初始聚类中心点的候选点集合并反馈给主节点,选取每两个相邻候选点之间距离大于2倍设定范围的所有候选点作为初始聚类中心点;利用MapReduce分布式并行框架进行并行聚类任务,针对每个簇计算数据间距离的平均值来更新聚类中心点;子节点应用误差平方和准则函数判断是否继续迭代;各子节点根据聚类中心点对大规模数据进行聚类。本发明实现并行聚类,减少聚类迭代次数,提高聚类准确率和并行聚类效率。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供