深度前馈网络的稳定和一致训练的证明框架

May, 2023

深度前馈网络的稳定和一致训练的证明框架

A Framework for Provably Stable and Consistent Training of Deep Feedforward Networks

Arunselvan Ramaswamy, Shalabh Bhatnagar, Naman Saxena

TL;DR介绍了一种针对深度神经网络进行有监督训练、无监督训练以及强化学习的新算法，运用标准随机梯度下降法和梯度剪裁法对神经网络进行更新，提出了一种稳定输出层且范围明确的新型激活函数，得出结论：神经网络的更新值稳定，训练更加精确与流畅。

Abstract

We present a novel algorithm for training deep neural networks in supervised (classification and regression) and unsupervised (reinforcement learning) scenarios. This algorithm combines the standard stochastic gradient descent and the →

neural networks gradient clipping stabilization tgelu activation numerical stability

发现论文，激发创造

正则化梯度剪裁能可靠地训练宽且深的神经网络

我们证明了基于正则化的梯度剪裁算法可以收敛于深度神经网络损失函数的全局最小值，只要网络具有足够的宽度，并且通过实证证明这一算法在深度学习中与现有的启发式方法相竞争，因此这一算法构成了一种新的严谨深度学习方法。

Apr, 2024

梯度下降量化 ReLU 网络特征

研究深度神经网络在过度参数化的情况下训练的现象，发现在网络具有小初值和学习率的假设下，权重向量趋向于集中在少量由数据决定的方向，这使得对于给定的输入数据，网络大小独立，只能得到有限数量的函数

Mar, 2018

学习深度同质模型中的算法正则化：层次自动平衡

证明了通过梯度下降（以及正步长）学习多层同质函数时，该算法的梯度流可以有效地强制不同层之间的平方范数差异保持不变，从而自动平衡所有层的大小，由此可以深入研究利用一阶算法来优化学习深度模型的基本方法。

Jun, 2018

神经网络使用 SGD 高效地学习低维表示

本文研究了使用随机梯度下降（SGD）训练任意宽度的两层神经网络（NN），其中输入 x 是高斯分布的，目标 y 遵循多指数模型，并证明了当基于 SGD 和权重衰减进行训练时，NN 的第一层权重将收敛于真实模型的向量 u1，...，uk 所张成的 k 维主子空间，从而建立了一个独立于 NN 宽度的一般化误差边界，并进一步证明了，使用 SGD 训练的 ReLU NNs 可以通过恢复主方向来学习单指标目标，其样本复杂度与 d 成线性关系，而不是通过核区域中的任何 p 次多项式的已知 d 奥米（p）样本要求，这表明在初始化时使用 SGD 训练的 NNs 可以胜过神经切向核。

Sep, 2022

训练神经网络的统一框架

我们提出了一个统一的优化框架，用于训练不同类型的深度神经网络，并在任意损失、激活和正则化函数上建立其收敛性。该框架推广了众所周知的一阶和二阶训练方法，并允许我们展示这些方法在各种深度神经网络架构和学习任务中的收敛性为我们的方法的一种特殊情况。

May, 2018

通过次线性激活神经元识别来实现高效 SGD 神经网络训练

本文提出了基于静态半空间报告数据结构的神经网络训练方法，通过几何搜索实现亚线性时间的激活神经元识别，并证明该算法可以在 O (M^2/ε^2) 的时间内收敛，其中 M 是系数范数上限，ε 是误差项。

Jul, 2023

在量化嘈杂环境中利用连续可微激活函数进行学习

通过不可微的激活函数如 GELU 和 SiLU，我们能够在存在量化噪声的情况下，实现对卷积、线性和 Transformer 网络的分析和训练，从而提供实现高性能和可靠硬件的适当激活函数选择。

Feb, 2024

稳定分布传播的不确定性量化

基于局部线性化的方法来通过神经网络传播稳定的概率分布，以量化其输出的不确定性。

Feb, 2024

使用近似梯度下降学习图神经网络

该论文提供了第一个针对具有一个隐层节点信息卷积的图神经网络（GNN）的可证明有效的学习算法，并开发了一种综合性框架来设计和分析 GNN 训练算法的收敛性。提出的算法适用于各种激活函数，包括 ReLU，Leaky ReLU，Sigmoid，Softplus 和 Swish，并对样本复杂度进行了特征化。数值实验进一步验证了理论分析。

Dec, 2020

线性可分数据上的 ReLU 网络学习：算法，最优性和泛化

本文提出了一种新的随机梯度下降算法，利用随机噪声扰动，无需任何假设于数据分布、网络大小和训练集大小，就能够证明地达到单隐藏层 ReLU 网络的全局最优性，同时提出了一些一般的泛化保证，此外，数值测试结果也验证了算法和理论的实用性。

Aug, 2018