深度神经网络的滑动窗口求和算法

May, 2023

深度神经网络的滑动窗口求和算法

Sliding Window Sum Algorithms for Deep Neural Networks

Roman Snytsar

TL;DR本文研究了滑动窗口求和算法在深度神经网络中的应用，展示了该算法可以用于池化和卷积原语的求值，并且该滑动求和卷积核比 CPU 上常用的 GEMM 卷积核更有效，甚至可以超过 GPU 对应核心的卷积核。

Abstract

sliding window sums are widely used for string indexing, hashing and time series analysis. We have developed a family of the generic vectorized sliding sum algorithms that provide speedup of O(P/w) for window size $w$ and number of processors P. For a sum with a commutative operator th

sliding window sums vectorized algorithms deep neural networks convolution kernels gpu

发现论文，激发创造

在普通硬件上加速机器学习基元

滑动窗口求和算法在深度神经网络的训练和推理中取得了成功。本文通过对滑动窗口卷积技术的广泛研究，作为常用的通用矩阵乘法（GEMM）卷积的一种更高效的替代方法，解决了内存膨胀问题，并在二维卷积中展示了显著的加速效果。我们在多种实现方式上探索了该技术的性能，包括针对特定滤波器尺寸的自定义内核。结果表明，在 CPU 甚至专用硬件加速器上，滑动窗口计算内核可以优于基于 GEMM 的卷积。这将推动 AI 在低功耗和低内存设备上的更广泛应用，无需专用硬件。同时，我们还讨论了模型压缩方法和优化网络架构与滑动窗口技术的兼容性，鼓励进一步在这些领域开展研究。

Oct, 2023

基于低内存 GEMM 的深度神经网络卷积算法

本文提出两种新型基于 GEMM 的算法，分别只需要额外的 O (MHW) 和 O (KW) 的空间，显著降低了 DNN 卷积的空间开销，适用于内存受限的嵌入式系统，并且实验表明我们的低内存算法和最好的图案构建方法一样快，尽管需要的额外内存只相当于后者的一小部分。

Sep, 2017

DNNs 的 Winograd 卷积：超越线性多项式

研究表明，在 DNN 中采用更广泛的 Winograd 算法可以显着提高浮点（FP）精度，在 fp16 中，这种方法可以使图像识别准确度提高 6.5 倍，同时保持相同数量的元素逐个乘法运算。

May, 2019

基于时间感知的大卷积核卷积

该文章介绍了一种名为 TaLK Convolutions 的自适应卷积操作，通过预测汇总内核的大小而不是使用固定大小的内核矩阵，使序列编码过程的时间复杂度为 O (n)，从而有效地改善了注意力 / 卷积算法等方面的问题，这种方法对于大规模标准机器翻译、抽象摘要和语言建模数据集的效果具有显著的改进。

Feb, 2020

DWM：一种可分解的 Winograd 卷积加速方法

本文提出了一种新的分解 Winograd 方法（DWM），可以显著提高 Winograd 算法在卷积神经网络中的应用范围（包括大尺寸核和大步长卷积），从而在保持数值精度的同时，减少计算量和提高性能。

Feb, 2020

动态功能连接：基于随机卷积而不学习的不再滑动窗口

基于随机卷积的特征扩展方法在动态功能连接领域比滑动窗口方法更有效，在模拟数据和实际性别差异研究中均取得更好的结果。该研究提出了更全面的卷积功能连接计算模型，其中滑动窗口方法是该模型的特例，从而为动态功能连接的研究方法打开了巨大的潜力。

Jun, 2024

使用理论最优滑动窗口方法追踪动态高斯密度

通过理论上的特征分类，我们提供了一个原则性指南，以选择最优的权重序列，从而改善卡尔曼滤波器在动态密度估计中的追踪效果。

Mar, 2024

使用深度最大池化卷积神经网络进行快速图像扫描

利用动态规划算法，即使存在最大池化层，也能将深度神经网络在滑动窗口扫描图像时的计算复杂度提高数倍。

Feb, 2013

深度神经网络中 Winograd 卷积的误差分析与提高精度方法

本研究分析了深度神经网络中卷积计算的 numerical accuracy，以 Winograd algorithm 为基础设计了限制误差的 modified algorithm，并提出了 Huffman 编码和 mixed-precision convolution 等多种方法，能显著降低误差并提高计算效率。

Mar, 2018

ProdSumNet：通过和积矩阵分解减少深度神经网络中的模型参数

通过将线性操作分解为较简单线性操作之和的乘积，我们提出了一种可以减少深度神经网络可训练模型参数数量的通用框架，用于各类神经网络结构，并展示了基于该框架的算法在 MNIST 和 Fashion MNIST 数据集上的表现。此外，我们探究了一种新的卷积层变换方法，不再需要卷积操作，这种方法可以任意改变可训练参数数量，并通过使用该框架在 MNIST 数据集上的实验验证了可用更少的参数获得更高的准确率的优点。

Sep, 2018