关于非光滑自动微分的数值可靠性：MaxPool 案例研究

Jan, 2024

关于非光滑自动微分的数值可靠性：MaxPool 案例研究

On the numerical reliability of nonsmooth autodiff: a MaxPool case study

Ryan Boustany

TL;DR通过研究自动微分在涉及非光滑 MaxPool 操作的神经网络上，考虑其可靠性。我们在不同的精度水平（16、32、64 位）、卷积架构（LeNet、VGG 和 ResNet）以及各种数据集（MNIST、CIFAR10、SVHN 和 ImageNet）上调查自动微分的行为。尽管自动微分可能是不正确的，但最近的研究表明，在几乎任何地方，它与导数一致，甚至在存在非光滑操作（如 MaxPool 和 ReLU）的情况下也是如此。然而，在实践中，自动微分使用的是浮点数（而不是实数），因此有必要探索那些自动微分可能出现数值不正确的子集。这些子集包括一个分岔区（在实数上自动微分是不正确的）和一个补偿区（在浮点数上自动微分是不正确的，但在实数上是正确的）。使用 SGD 进行训练过程，我们研究了对于精度为 16 和 32 位的 MaxPool 函数的非光滑雅可比矩阵的不同选择对精度的影响。这些发现表明，较低范数的非光滑 MaxPool 雅可比矩阵有助于保持稳定和高效的测试准确性，而较高范数的矩阵可能导致不稳定和性能下降。我们还观察到，使用批归一化、类似 Adam 的优化器或增加精度水平可以减少 MaxPool 的非光滑雅可比矩阵对学习的影响。

Abstract

This paper considers the reliability of automatic differentiation (AD) for neural networks involving the nonsmooth maxpool operation. We i

automatic differentiation neural networks precision levels maxpool operation nonsmooth jacobians

发现论文，激发创造

机器学习中的自动微分数学模型

本文介绍了自动求导实现与非平滑函数导数求解之间的关系，提出了一种非平滑微积分方程，并阐明其在随机逼近方法中的应用，同时证明了算法求解导数可能产生的人工临界点问题，并演示了通常方法如何以概率为一避免这些点。

Jun, 2020

神经网络中的泰勒逼近：修正线性单元网络中的收敛与探索

本文提供了第一个适用于现代卷积神经网络的收敛保证，并探究了通过探索激活配置空间更彻底而实现更好解的自适应优化器方法。

Nov, 2016

非光滑自动微分的复杂度

本文提出了一种用保守梯度模型来估计算法分化的计算成本的方法，并且较为详细地描述了其在反向传播和前向传播中的应用。主要方法是基于局部 Lipschitz 半代数或可定义基本函数的方法，可以极大地加速了反向传播过程。

Jun, 2022

自动微分跨条件分支的平滑方法

控制流结构中引入的不连续性对于假设目标函数响应曲面具有一定平滑性的数学优化方法构成挑战。在此论文中，我们将平滑解释（SI）与自动微分（AD）相结合，以高效计算平滑程序的梯度。SI 与 AD 的结合使得参数综合可以直接基于梯度进行分支程序，例如校准模拟模型或将其与神经网络模型结合在机器学习流程中。我们详细说明了 SI 中为确保可行性所做的近似效果，并提出了一种新的蒙特卡罗估计器，通过 AD 和抽样的组合来估计平滑程序的梯度，从而避免了潜在的假设。通过使用我们的工具 DiscoGrad 将简单的 C++ 程序自动转换为平滑可微形式，我们进行了广泛的评估。我们将 SI 与 AD 的组合以及我们的蒙特卡罗估计器与现有的无梯度和随机方法在四个非平凡的问题上进行比较，这些问题从经典的基于模拟的优化到神经网络驱动的控制。虽然 SI 估计器的优化进展取决于程序控制流的复杂性，但我们的蒙特卡罗估计器在所有问题中都具有竞争力，在最高维问题中具有明显最快的收敛速度。

Oct, 2023

随机自动微分

提出了随机自动微分 (RAD) 的一般框架和方法，可实现减少内存的无偏梯度估计，特别适用于小批量的反向传播神经网络，同时适用于科学计算中的优化控制参数

Jul, 2020

非可微对神经网络训练的三种影响

非可微性对神经网络训练过程的三个方面产生了影响。我们首先分析具有 ReLU 激活函数的全连接神经网络，结果显示连续可微的神经网络收敛速度更快。接下来，我们分析 $L_{1}$ 正则化问题，并展示深度学习求解器产生的解即使对于 $L_{1}$ 惩罚的线性模型也是错误和反直觉的。最后，我们分析稳定性边界问题，我们证明所有的凸性非光滑的 Lipschitz 连续函数都显示不稳定的收敛，并且给出了一个在两次可微函数失败的一次可微设置的例子。总的来说，我们的研究结果表明在训练过程中考虑神经网络的非线性是我们开发更好算法和更好理解训练过程的关键。

Jan, 2024

非光滑隐式微分：确定性和随机收敛速率

我们研究了参数化不可微收缩映射的不动点导数的高效计算问题，这个问题在机器学习中有广泛应用，包括超参数优化、元学习和数据污染攻击。我们分析了两种常见方法：迭代微分（ITD）和近似隐式微分（AID）。在非光滑环境下的一个关键挑战是链式法则不再成立。在 Bolte 等人（2022 年）最近的工作基础上，他们证明了非可微 ITD 的线性收敛性，我们提供了对确定性情况下 ITD 和 AID 的改进线性收敛率。当不动点被定义为外部映射和仅能通过随机无偏估计器访问的内部映射的复合时，我们进一步介绍了一种名为 NSID 的新方法来计算隐式导数。我们建立了 NSID 到真导数的收敛速度，包括在光滑环境中的最佳速度。我们进行了说明性实验证实了我们的分析结果。

Mar, 2024

分数最大池化

研究采用分数最大池化的卷积神经网络，其使用随机的方式构建合适的池区域，有效降低了过拟合问题，提高了数据集的性能表现。

Dec, 2014

一类非凸、非光滑问题的交替方向乘子法及其在背景 / 前景提取中的应用

本文针对图像科学中广泛使用的一类优化问题，基于 ADMM 算法，通过使用通用的双重步长方法、构建特殊的潜函数以及采用简单的初始化策略实现了非凸优化问题全局收敛和解决，并在实际应用中进行了比较实验，表明最优化效果良好。

Jun, 2015

使用低精度乘法训练深度神经网络

通过在三个基准数据集上使用三种不同的格式（浮点数、固定点和动态固定点）进行训练，评估乘法精度的影响，研究发现，即使在训练神经网络时使用 10 位乘法，非常低的精度也足够运行和训练最新的神经网络。

Dec, 2014