使用普通矩阵乘法进行并行多通道卷积
本文提出一种具有内存效率的卷积方法,即MEC,使用简单且高效/紧凑的方式降低输入矩阵的内存开销,提高卷积运算速度,显著减少内存消耗,在移动设备和服务器平台上都具有良好的加速效果,适用于卷积运算的深度神经网络模型。
Jun, 2017
本文提出两种新型基于GEMM的算法,分别只需要额外的O(MHW)和O(KW)的空间,显著降低了DNN卷积的空间开销,适用于内存受限的嵌入式系统,并且实验表明我们的低内存算法和最好的图案构建方法一样快,尽管需要的额外内存只相当于后者的一小部分。
Sep, 2017
本研究提出了一种名为DeepcomplexMRI的多通道图像重建方法,使用残差复杂卷积神经网络加速并行MR图像采集,并在多层网络中加强了K空间数据一致性,评估结果表明,该方法能够更准确地重建所需的MR图像。
Jun, 2019
使用Indirect Convolution算法实现卷积操作,避免了传统GEMM算法中需要进行im2col转换所带来的数据重排和内存开销,并可以适用于更大的卷积核、填充、步幅和膨胀率。
Jul, 2019
这篇论文提出了一种基于Tensor Core和MMA指令的卷积操作优化方法,该方法通过自动调度探索线程块和warp尺寸的搜索空间,包括寄存器级Packing和布局优化等选项,使用学习算法找到最佳调度,从而比现有技术在Tensor Core上实现了大幅度加速。
Feb, 2022
本研究提出了一种新的框架NeuralMatrix,可以在一个单一的通用矩阵乘法加速器上计算多功能的深度神经网络,同时在性能和特定应用的加速水平方面与CPU和GPU等通用处理器相比具有优势。
May, 2023
本文提出了基于im2win的卷积范式,旨在通过持续的内存访问提高性能,并经过了优化技术的改进,与其他基于cuBLAS和cuDNN的卷积实现相比,内存占用少23.1%至32.8%,性能提高了3.5倍至155倍。
Jun, 2023
提出了一种名为im2win的内存高效数据转换算法,能够实现连续的内存访问和数据重用,从而大大降低内存开销,同时通过各种优化实现高性能二维卷积,平均可以将内存开销降低到41.6%,相对于im2col和不使用数据转换,性能平均提高了3.6倍和5.3倍。
Jun, 2023