残差网络中的身份连接提高噪声稳定性

ICMLMay, 2019

残差网络中的身份连接提高噪声稳定性

Identity Connections in Residual Nets Improve Noise Stability

Shuzhi Yu, Carlo Tomasi

TL;DR本研究比较 ResNets 和 PlnNets 的训练效率、泛化能力、容错率等性能，并探讨了两者之间简化版本的等价性，进而猜测 ResNets 泛化能力更强的原因与其较高的噪音容错能力有关，并通过实验支持了该猜想。

Abstract

residual neural networks (ResNets) achieve state-of-the-art performance in many computer vision problems. Compared to plain networks without residual connections (plnnets), ResNets train faster, generalize better

residual neural networks plnnets degradation problem expressive power noise stability

发现论文，激发创造

ResNets 是否可证明比线性预测器更好？

本文通过严谨的证明表明，深度残差单元的非线性残差确实表现出了优化行为，并且极小化问题形成凸起，并证明了当在标准随机梯度下降训练网络时可以实现比任何线性预测器更好的目标值。

Apr, 2018

ResNet 为什么有效？残差可以泛化

本文研究残差连接对神经网络假设空间覆盖数以及泛化能力的影响，证明了哪怕是固定了权重矩阵和非线性函数的总数，残差连接不会增加神经网络的假设复杂性，并基于假设空间覆盖数得到了 ResNet 等采用残差连接的深度神经网络的多类泛化界。根据此泛化界，我们可以使用正则化项控制权重矩阵的模不要过度增大，以尽量达到良好的泛化性能。

Apr, 2019

残差连接鼓励迭代推断

研究表明，Residual networks 可以通过迭代改进特征来执行表示学习和迭代细化，但对于这一过程的全面理解仍然是一个研究课题，并且共享残差层会导致表征爆炸和过拟合，需要采用现有的策略来缓解这个问题。

Oct, 2017

剖析残差学习的内幕

通过发现神经网络中的 “消散输入” 现象，我们揭示了残差学习背后的基本原理，从而解决了深度可扩展的普通神经网络训练中收敛失败的挑战，并提出了 “普通神经网络假设”（PNNH）来支持无残差连接的深度普通神经网络训练，通过在流行的视觉基准测试中对 PNNH 启用的 CNN 架构和 Transformers 进行全面评估，并展示了与 ResNets 和视觉 Transformers 相比的相当准确性、高达 0.3% 更高的训练吞吐量和 2 倍更好的参数效率。

Feb, 2024

IamNN：用于高效图像分类的迭代自适应移动神经网络

本研究提出基于 ResNet 架构的参数共享和自适应计算时间的网络，该网络比原始网络更小，能够根据输入图像的复杂性调整计算成本。

Apr, 2018

深层 ResNets 是否能被证明比线性预测器更好？

本研究利用几何条件证明了多跳连接可以改善优化过程中的局部极小值问题，并证明了在 ResNet 的优化空间中的任何关键点要么优于最佳线性预测器，要么其 Hessian 矩阵有严格负的特征值。同时，我们还证明了深度残差网络的 “接近恒等区域” 的深度无关上界。

Jul, 2019

关于 ResNets 的时空表达性

该研究论文研究了残差网络（ResNets）在监督学习中的作用，提出了其作为 ODEs 的时空近似，并探讨了通过 ResNets 中残差块的数量和表达能力的增加来逼近 ODEs 的解，并推导了一定规则下获得预定精度所需的残差块复杂性的估计。

Oct, 2019

可视化残差网络

本篇论文通过定性视觉和实证分析，研究残差网络中残差跳转连接的作用，揭示残差跳转连接强制不同层次的卷积层区分特征的实际意义，证明残差网络遵循卷积神经网络慢慢学习局部特征并学习整个物体全局特征的普适性。

Jan, 2017

Resnet in Resnet：广义残差连接结构

介绍了一个深度双流架构 Resnet in Resnet（RiR），该架构推广了 Residual networks（ResNets）和标准 CNNs，且无计算开销，通过在 CIFAR-10 上实现，RiR 不断提高性能、在 CIFAR-100 上创新了新的最优结果

Mar, 2016

深度残差网络和权重初始化

本篇论文分析了 ResNet 的简化模型，并认为 ResNet 的好处与其对初始权重的选择较为不敏感有关系。此外，本文还演示了如何利用批归一化提高深度 ResNets 的反向传播能力，而无需调整初始权重值。

Sep, 2017