叠加作为加速的梯度下降

Mar, 2024

Stacking as Accelerated Gradient Descent

Naman Agarwal, Pranjal Awasthi, Satyen Kale, Eric Zhao

TL;DR通过逐渐增加层数并将新层的参数从旧层复制而初始化，堆叠是一种启发式技术，已被证明可以提高训练深度神经网络的效率。本文提出了堆叠的一个理论解释：即堆叠实现了一种 Nesterov 加速梯度下降的形式。该理论还涵盖了更简单的模型，如提升方法中构建的加法集成，并为每轮提升中新分类器的初始化提供了一个广泛使用的启发式实践的解释。我们还证明了对于某些深度线性残差网络，堆叠确实提供了加速训练，通过对 Nesterov 加速梯度方法中的潜在函数进行了新的分析，该函数允许更新中的错误。我们进行了概念验证实验来验证我们的理论。

Abstract

stacking, a heuristic technique for training deep residual networks by progressively increasing the number of layers and initializing new layers by copying parameters from older layers, has proven quite successfu

stacking deep residual networks nesterov's accelerated gradient descent boosting methods accelerated training

发现论文，激发创造

StackNet: 续学习的参数堆叠

本文提出了一种连续学习方法，通过堆叠参数实现对额外任务的学习并保留先前任务的性能，其中 StackNet 保证先前学习任务的性能不降低，而索引模块则表现出在找到输入样本的来源时的高置信度。与 PackNet 相比，该方法竞争力强且高度直观。

Sep, 2018

使用 Boosting 理论顺序学习深层 ResNet 块

本文针对深度神经网络训练的不稳定性，提出具有强学习能力的 ResNet 架构，并在该条件下证明了 ResNet 的 Boosting 理论，同时提出 BoostResNet 训练算法来刻画 “浅层 ResNet” 的序列训练，推导出了 ResNet 的弱学习条件，并证明在深度为 $T$ 时，训练的误差随着 $T$ 指数下降。基于边缘理论证明了广义分类 ResNet 的泛化误差上限，并建议 ResNet 对边缘带 $l_1$ 约束的权重具有抵抗过拟合的能力。

Jun, 2017

再次让深度网络变得浅显

通过研究深度神经网络中的残差连接，提出了一种平行浅层架构的替代方案，通过在 Taylor 级数表达式中截断高阶项，发现广而浅的网络架构在性能上与传统的深层架构相当，这一发现有望简化网络架构、提高优化效率并加速训练过程。

Sep, 2023

随机深度深度网络

该研究提出了一种名为随机深度的训练方法，通过随机地去掉一部分神经网络层，降低训练时间，提高测试准确率，特别是对于残差网络这样深层数学习模型的训练和测试效果都得到了大幅提升。

Mar, 2016

一种快速有监督学习的引导算法

探索一种不依赖于曲线追踪法而是靠新的技术 “分解” 隐藏层和通过引导、重新采样和线性回归来更新它们的加权连接的神经网络训练方式，实验证明这种方法的收敛速度非常快且需要较少数据点。

May, 2023

堆叠网络提升物理信息训练：神经网络和深度算子网络的应用

通过构建一系列的网络，其中一个步骤的输出可以作为下一步训练的低保真输入，我们提出了一种用于训练物理信息神经网络和运算网络的新型多保真度框架，通过迭代过程中逐步增加模型的表达能力，该方法的迭代特性使我们能够逐步学习直接难以学习的解的特征，通过非线性摆、波动方程和粘性 Burgers 方程等基准问题，我们展示了如何通过堆叠方法来提高物理信息神经网络和运算网络的准确性和减少所需的规模。

Nov, 2023

利用动量加速随机梯度下降优化过参数化学习

本文介绍了一种名为 MaSS 的算法，它使用与 SGD 相同的步长，但具有比 SGD 更快的加速收敛速度。该算法解决了 Nesterov SGD 的不收敛问题，并分析了收敛速度和最优超参数对于 mini-batch size 的依赖性。实验结果表明，MaSS 算法在多个深度网络架构中均表现出比 SGD、Nesterov SGD 和 Adam 更优秀的性能。

Oct, 2018

ResNet 解密

ResNet 是一种残差网络，利用快捷连接显著减少了训练的难度，同时在训练和泛化误差方面都实现了很好的性能提升，我们提供了快捷连接 2 的独特理论解释，它可以使训练非常深的模型与浅的模型一样容易，同时我们的实验证明了通过使用快捷连接 2 进行小权重初始化，可以从不同的角度（最终损失、学习动态和稳定性，以及沿着学习过程的海森矩阵的行为）实现显着更好的结果。

Nov, 2016

深度残差神经网络的分层并行训练

该论文提出了一种基于多格迭代和并行计算的新型深度神经网络训练算法，和传统的序列前向、后向传播不同，该方法使神经网络的训练过程具备了层间的并行性，并取得了与传统方法相当的训练性能。

Dec, 2018

Gradient Layer: 增强生成模型对抗训练的收敛

本文提出了在生成对抗网络训练中，通过引入梯度层来寻找无限维空间中的下降方向，以克服深模型训练中局部最优问题，从而获得更快更好的收敛性能以及更强的表达能力。

Jan, 2018