加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

基于NVIDIAKeplerGPU汇编指令的单精度矩阵乘优化方法与系统

发明专利无效专利
  • 申请号:
    CN201611260732.X
  • IPC分类号:G06F9/302;G06F9/30;G06F17/16;G06T1/20
  • 申请日期:
    2016-12-30
  • 申请人:
    中国科学院计算技术研究所;中国科学院国有资产经营有限责任公司
著录项信息
专利名称基于NVIDIAKeplerGPU汇编指令的单精度矩阵乘优化方法与系统
申请号CN201611260732.X申请日期2016-12-30
法律状态撤回申报国家暂无
公开/公告日2017-05-17公开/公告号CN106681694A
优先权暂无优先权号暂无
主分类号G06F9/302IPC分类号G;0;6;F;9;/;3;0;2;;;G;0;6;F;9;/;3;0;;;G;0;6;F;1;7;/;1;6;;;G;0;6;T;1;/;2;0查看分类表>
申请人中国科学院计算技术研究所;中国科学院国有资产经营有限责任公司申请人地址
北京市海淀区中关村科学院南路6号 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人中国科学院计算技术研究所,中国科学院国有资产经营有限责任公司当前权利人中国科学院计算技术研究所,中国科学院国有资产经营有限责任公司
发明人谭光明;张秀霞;周可人;王朝尉
代理机构北京律诚同业知识产权代理有限公司代理人祁建国;梁挥
摘要
本发明涉及单精度矩阵乘优化方法,该方法基于NVIDIA Kepler GPU汇编指令,包括:根据A矩阵分块的列长度bm和B矩阵分块的行长度bn对原始矩阵进行分块,每个block处理维度的输出矩阵C;在GPU二级存储上创建4个暂存空间smA,smB,smAx和smBx;从GPU一级存储上的矩阵A读取该smA大小的矩阵到该smA,从矩阵B读取该smB大小的矩阵到该smB;每次从该smA加载一列A矩阵分块数据到寄存器,从该smB加载一行B矩阵分块数据到寄存器,读取该寄存器内容,并运用乘加融合指令做矩阵乘运算,且在做矩阵乘运算的同时,从该GPU一级存储读取下一个该smA的一列到该smAx,并储读取下一个该smB的一行到该smBx;步骤5,做完该smA和该smB的矩阵乘以后,将该smA和该mAx地址互换,将该smB和该smBx地址互换。

专利服务由北京酷爱智慧知识产权代理公司提供