本文介绍了针对 x86 体系结构的直接卷积核和动态编译方法实现的 JIT 优化内核,该内核可在多节点下高效执行最新的图像识别任务,使单机和多节点运行时高效地通过 CPU 执行任务的高吞吐量。
Aug, 2018
本文提出一种具有内存效率的卷积方法,即 MEC,使用简单且高效 / 紧凑的方式降低输入矩阵的内存开销,提高卷积运算速度,显著减少内存消耗,在移动设备和服务器平台上都具有良好的加速效果,适用于卷积运算的深度神经网络模型。
Jun, 2017
本文提出了基于 im2win 的卷积范式,旨在通过持续的内存访问提高性能,并经过了优化技术的改进,与其他基于 cuBLAS 和 cuDNN 的卷积实现相比,内存占用少 23.1% 至 32.8%,性能提高了 3.5 倍至 155 倍。
Jun, 2023
本文提出两种新型基于 GEMM 的算法,分别只需要额外的 O (MHW) 和 O (KW) 的空间,显著降低了 DNN 卷积的空间开销,适用于内存受限的嵌入式系统,并且实验表明我们的低内存算法和最好的图案构建方法一样快,尽管需要的额外内存只相当于后者的一小部分。
Sep, 2017
本文探讨了对于卷积神经网络的内存效率的优化,以及其对性能的影响,并提出了数据布局及内存访问模式方面的优化策略。实验证明,这些策略不仅对于单个层面有效,对于整个神经网络也可获得高达 27.9 倍和 5.6 倍的速度提升。
Oct, 2016
通过扩展和优化快速 Winograd 级卷积算法,我们在 CPU 硬件上最大化 CPU 利用率及多核可伸缩性,处理了视频和体积图像分析中的空时特征,并证明了与之前的最先进技术相比,吞吐量提高了 5 到 25 倍。
Nov, 2016
通过优化卷积神经网络架构和使用融合块核心技术,实现了计算效率和准确性的提升。
Apr, 2024
研究使用 Winograd 最小滤波算法加速卷积神经网络在 GPU 上的训练,以满足自动驾驶汽车行人检测和移动电话图像识别的低延迟和有限资源处理要求。
Sep, 2015
本研究提出了一种基于核激活值的算法级优化技术,将原始内核分成四个子内核,从而降低了内存需求和不必要的乘法运算,提高了转置卷积层的计算效率。实验结果显示,采用所提出的优化方法比传统实现快 $2.2$ 倍。
Sep, 2022
使用 Indirect Convolution 算法实现卷积操作,避免了传统 GEMM 算法中需要进行 im2col 转换所带来的数据重排和内存开销,并可以适用于更大的卷积核、填充、步幅和膨胀率。
Jul, 2019