稳定的 ResNet

Oct, 2020

Stable ResNet

Soufiane Hayou, Eugenio Clerico, Bobby He, George Deligiannidis, Arnaud Doucet...

TL;DR介绍了一种新的 ResNet 架构，称为 Stable ResNet，解决了在深度增加时梯度消失和梯度爆炸的问题，并确保在无限深度时保持表达能力。

Abstract

deep resnet architectures have achieved state of the art performance on many tasks. While they solve the problem of gradient vanishing, they might suffer from →

deep resnet architectures gradient vanishing gradient exploding expressivity stable resnet

发现论文，激发创造

深度残差网络和权重初始化

本篇论文分析了 ResNet 的简化模型，并认为 ResNet 的好处与其对初始权重的选择较为不敏感有关系。此外，本文还演示了如何利用批归一化提高深度 ResNets 的反向传播能力，而无需调整初始权重值。

Sep, 2017

Wider or Deeper: 重新审视 ResNet 模型在视觉识别中的应用

本文探讨增加深度对神经网络性能提升的边际效益递减问题，提出一种更高效的残差网络结构并在图像分类和语义分割等领域实现了显著优越性能。

Nov, 2016

破碎渐变问题：如果 ResNets 是答案，那问题是什么？

本文提出了 “破碎梯度” 问题，指出标准前馈网络中梯度之间的相关性随着深度呈指数衰减，导致梯度类似于白噪声；相比之下，具有跳跃连接的体系结构更加抗干扰，梯度呈次线性降低。此外，本文还提出了一种新的 “线性外观”(LL) 初始化方法，可以避免破碎现象，并证明其可以使深度网络更好地进行训练。

Feb, 2017

随机深度深度网络

该研究提出了一种名为随机深度的训练方法，通过随机地去掉一部分神经网络层，降低训练时间，提高测试准确率，特别是对于残差网络这样深层数学习模型的训练和测试效果都得到了大幅提升。

Mar, 2016

宽残差网络

通过对 ResNet 模块架构的详细实验研究，本文提出了一种新的网络架构 —— 宽残差网络 (WRNs)，通过降低深度、增加宽度优化 ResNet 网络，证明其在准确度和效率上优于传统的浅而深层的残差网络模型，实现了在 CIFAR, SVHN, COCO 以及 ImageNet 等数据集上的准确度和效率的新突破。

May, 2016

深度神经网络的稳定结构

本文提出了一种新颖的前向传播算法，其灵感来源于 ODE 系统，能够克服深度神经网络设计和训练中的挑战，并通过对稳定性和合理性的分析，发展了新的网络架构，以稳定深度学习，且具有竞争力。

May, 2017

卷积残差记忆网络

通过在卷积残差网络中引入长短时记忆机制，增强了记忆机制加强卷积神经网络的性能，使得该方法在 CIFAR-100 基准测试上优于其他最先进的技术，并且在 CIFAR-10 和 SVHN 基准测试上与之相当，而且相比于深度相当的深度残差神经网络，网络宽度更大，深度更小，总体计算量更少。

Jun, 2016

深度残差网络中学习严格身份映射

本文提出一种名为 epsilon-ResNet 的深度学习网络，通过单次训练中的层选取达到在图像识别等多个领域中达到与超深残差网络相当甚至更好的性能，同时减少了 80% 左右的参数数量。

Apr, 2018

使用 Boosting 理论顺序学习深层 ResNet 块

本文针对深度神经网络训练的不稳定性，提出具有强学习能力的 ResNet 架构，并在该条件下证明了 ResNet 的 Boosting 理论，同时提出 BoostResNet 训练算法来刻画 “浅层 ResNet” 的序列训练，推导出了 ResNet 的弱学习条件，并证明在深度为 $T$ 时，训练的误差随着 $T$ 指数下降。基于边缘理论证明了广义分类 ResNet 的泛化误差上限，并建议 ResNet 对边缘带 $l_1$ 约束的权重具有抵抗过拟合的能力。

Jun, 2017

任意深度残差神经网络可逆架构

本研究将深度残差网络解释为普通微分方程，并由此开发出一种稳定和可逆的深度神经网络理论框架，以及提出了三种可任意加深的可逆神经网络架构，实现了对深度网络的记忆高效实现，并且通过实验证明了本文方法在 CIFAR-10，CIFAR-100 和 STL-10 等数据集上取得了明显的优于现有强基准的性能表现，并且能够通过使用更少的训练数据来训练神经网络。

Sep, 2017