基于NVIDIAKeplerGPU汇编指令的单精度矩阵乘优化方法与系统

发明专利无效专利

申请号：
CN201611260732.X
IPC分类号：G06F9/302G06F9/30G06F17/16G06T1/20
申请日期：
2016-12-30
申请人：
中国科学院计算技术研究所;中国科学院国有资产经营有限责任公司

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	基于NVIDIAKeplerGPU汇编指令的单精度矩阵乘优化方法与系统
申请号	CN201611260732.X	申请日期	2016-12-30
法律状态	撤回	申报国家	暂无
公开/公告日	2017-05-17	公开/公告号	CN106681694A
优先权	暂无	优先权号	暂无
主分类号	G06F9/302 ? IPC结构图谱： G 物理 G0 仪器 G06 计算；推算；计数 G06F 电数字数据处理（基于特定计算模型的计算机系统入G06N） G06F9/00 程序控制设计，例如，控制单元（用于外部设备的程序控制入G06F13/10）〔1，4，2006.01，2018.01〕 G06F9/06 使用存储的程序，即使用处理设备的内部存储来接收程序或者保留程序〔1，2006.01〕 G06F9/30 与执行机器指令相关的设计，例如指令译码（用于执行微指令的入G06F9/22；）〔3，2006.01，2018.01〕 G06F9/302 控制算术运算执行的〔5〕	IPC分类号	G06F9/302;G06F9/30;G06F17/16;G06T1/20查看分类表>
申请人	中国科学院计算技术研究所;中国科学院国有资产经营有限责任公司	申请人地址	北京市海淀区中关村科学院南*** 变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	中国科学院计算技术研究所,中国科学院国有资产经营有限责任公司	当前权利人	中国科学院计算技术研究所,中国科学院国有资产经营有限责任公司
发明人	谭光明;张秀霞;周可人;王朝尉
代理机构	北京律诚同业知识产权代理有限公司	代理人	祁建国;梁挥

摘要

本发明涉及单精度矩阵乘优化方法，该方法基于NVIDIA Kepler GPU汇编指令，包括：根据A矩阵分块的列长度bm和B矩阵分块的行长度bn对原始矩阵进行分块，每个block处理维度的输出矩阵C；在GPU二级存储上创建4个暂存空间smA，smB，smAx和smBx；从GPU一级存储上的矩阵A读取该smA大小的矩阵到该smA，从矩阵B读取该smB大小的矩阵到该smB；每次从该smA加载一列A矩阵分块数据到寄存器，从该smB加载一行B矩阵分块数据到寄存器，读取该寄存器内容，并运用乘加融合指令做矩阵乘运算，且在做矩阵乘运算的同时，从该GPU一级存储读取下一个该smA的一列到该smAx，并储读取下一个该smB的一行到该smBx；步骤5，做完该smA和该smB的矩阵乘以后，将该smA和该mAx地址互换，将该smB和该smBx地址互换。

一种水利工程生态护坡支撑结构

实用新型

基于NVIDIAKeplerGPU汇编指令的单精度矩阵乘优化方法与系统

在售专利 早买早用

在售专利早买早用