DNNs 的 Winograd 卷积:超越线性多项式
本研究分析了深度神经网络中卷积计算的 numerical accuracy,以 Winograd algorithm 为基础设计了限制误差的 modified algorithm,并提出了 Huffman 编码和 mixed-precision convolution 等多种方法,能显著降低误差并提高计算效率。
Mar, 2018
比较了三种高度优化的实现方式(常规 FFT、Gauss-FFT 和 Winograd-based convolution)在现代多核和众核 CPU 上的效果,并使用 Roofline 性能模型对三种方法的计算阶段进行了详细的分析,结果显示 FFT-based 实现通常优于 Winograd-based approach。
Sep, 2018
该论文介绍了一种新的 Winograd 算法,该算法在复数领域扩展构造,并提出了优化方法,在不显著降低准确度的情况下有效地提高了算法效率。此外,作者们设计并实现了基于整数的过滤器缩放方案,可以有效地减少过滤器的位宽,降低模型大小并提高推理速度。
Jan, 2019
提出了一种 Winograd 感知的卷积层形式,通过将 Winograd 变换的数值误差暴露给模型的参数学习来设计具有竞争力的量化模型,同时提出了一种 WiNAS 框架以在准确性和延迟方面联合优化给定宏结构,优化后的 ResNet-18 在 CIFAR-10 上速度提高了 2.66 倍,在不损失准确性的情况下。
Feb, 2020
本文针对移动设备上广泛使用的 ARM Cortex-A CPU,探讨了 Winograd 或 Cook-Toom 特征压缩算法在卷积神经网络上的高效实现,通过优化计算资源的利用和充分发挥 ARMv8-A NEON SIMD 指令集等策略降低了推断延迟,并在数个代表性 CNN 上进行了模型评估,结果显示相比现有的 im2row/im2col 基于优化技术,可在全网络中提高 60% 左右的性能。
Mar, 2019
本论文将 Winograd 算法扩展到残余数字系统 (RNS),使用 Winograd 变换和低成本 (如 8 位) 算术,在不降低网络预测精度的情况下,准确地计算大量的滤波器和激活区块上的最小复杂度卷积,减少算术复杂度高达 7.03 倍,对于 3x3 和 5x5 的卷积核,性能提高达 2.30 倍到 4.69 倍。
Jul, 2020
该研究论文介绍了稀疏方法和 Winograd 卷积的两种正交方法,将其融合可以提高计算性能,同时提供了实现方法和算法,通过 AlexNet 在 ImageNet 数据集上进行 Winograd 系数的本地化训练和修剪,可以得到超过 90%的稀疏度,并实现 5.4 倍加速。
Feb, 2017
本文提出了一种新的分解 Winograd 方法(DWM),可以显著提高 Winograd 算法在卷积神经网络中的应用范围(包括大尺寸核和大步长卷积),从而在保持数值精度的同时,减少计算量和提高性能。
Feb, 2020
Winograd 卷积对神经网络容错性能的潜力进行了综合评估,结合经典容错设计方法,如三模块冗余、容错训练和受限激活函数,可以有效地降低容错设计开销并提高模型精确性。
Aug, 2023