高性能零内存开销直接卷积
本研究介绍了一种基于任务分解的并行算法ZNN,它能够在计算机视觉中应用广泛的卷积神经网络中实现PRAM模型下的线性加速,通过时间局部化和一种几乎无等待的并发方法,此算法能够在共享内存机器上达到与物理核心数量相当的加速效果,适用于宽网络结构。此算法基于CPU的任务并行性,与GPU的SIMD并行性相比,ZNN的开发和维护成本相对较低。
Oct, 2015
本文探讨了对于卷积神经网络的内存效率的优化,以及其对性能的影响,并提出了数据布局及内存访问模式方面的优化策略。实验证明,这些策略不仅对于单个层面有效,对于整个神经网络也可获得高达27.9倍和5.6倍的速度提升。
Oct, 2016
本文提出一种具有内存效率的卷积方法,即MEC,使用简单且高效/紧凑的方式降低输入矩阵的内存开销,提高卷积运算速度,显著减少内存消耗,在移动设备和服务器平台上都具有良好的加速效果,适用于卷积运算的深度神经网络模型。
Jun, 2017
本文提出两种新型基于GEMM的算法,分别只需要额外的O(MHW)和O(KW)的空间,显著降低了DNN卷积的空间开销,适用于内存受限的嵌入式系统,并且实验表明我们的低内存算法和最好的图案构建方法一样快,尽管需要的额外内存只相当于后者的一小部分。
Sep, 2017
本文研究了用于移动计算机视觉系统的卷积神经网络性能特征,使用不同的硬件平台和软件框架以及本地和远程计算,并指出存在重要的延迟 - 吞吐量折衷,并阐述影响性能的几个因素。
Mar, 2018
该研究旨在利用卷积神经网络及非局部冗余优化视频压缩,达到与预处理去噪CNN类似的编码增益,同时只需要约为1%的计算复杂度,适用于资源受限的条件下进行视频压缩。
Oct, 2019
通过提出局部卷积(PConv)和一种新的神经网络FasterNet,实现了在广泛设备上获得比其他网络更快的运行速度,而不会牺牲各种视觉任务的准确性。
Mar, 2023
本文提出了基于im2win的卷积范式,旨在通过持续的内存访问提高性能,并经过了优化技术的改进,与其他基于cuBLAS和cuDNN的卷积实现相比,内存占用少23.1%至32.8%,性能提高了3.5倍至155倍。
Jun, 2023