残差循环网络中的褪色记忆作为归纳偏差
本论文从路径分解的角度研究 GNNs 中残差连接的前向和后向传播行为,发现由残差连接路径的二项式分布递归聚合的中位数长度路径控制输出表示,导致 GNNs 深度加深时的过度平滑。基于这些发现,作者提出了一种带有冷启动自适应残差连接和前馈模块的通用深度 GNNs 框架(UDGNN-DRIVE),并进行了大量实验表明其有效性,可通过简单堆叠标准 GNNs 实现非平滑异构数据集上的最新结果。
May, 2022
研究表明,Residual networks 可以通过迭代改进特征来执行表示学习和迭代细化,但对于这一过程的全面理解仍然是一个研究课题,并且共享残差层会导致表征爆炸和过拟合,需要采用现有的策略来缓解这个问题。
Oct, 2017
本研究旨在证明,通过添加跳跃连接,残差网络将采用基于解析方法确定的次指数正向和反向动态,从而有效地保护输入空间几何形态和梯度信息流。我们证明理论和实证,Xavier 或 He 方案等通用初始方案不是残差网络的最佳选择。
Dec, 2017
本研究比较 ResNets 和 PlnNets 的训练效率、泛化能力、容错率等性能,并探讨了两者之间简化版本的等价性,进而猜测 ResNets 泛化能力更强的原因与其较高的噪音容错能力有关,并通过实验支持了该猜想。
May, 2019
利用加权因子来衰减残差网络内部的标识快捷方式,大大提高了最先进的自监督掩码自编码(MAE)范式中的语义特征学习。我们在 MAE 的 VIT-B/16 骨干网络中对标识快捷方式进行了修改,将 ImageNet 上的线性探测准确度从 67.3% 提升至 72.3%。这个显著差距表明,残差连接结构在促进梯度传播方面发挥了重要作用,但由于将较浅层次的表示注入到更深层次中,它可能对抽象学习的能力产生副作用。我们通过固定公式逐渐减少标识连接的贡献来解决这个问题,这不会影响网络的可训练性。通过分析我们修改后的残差网络学习到的表示,我们发现低有效特征排名与下游任务性能之间存在相关性。
Apr, 2024
研究说明传统的循环神经网络(RNNs)在需要长期记忆的任务上表现不佳的原因是因为其随机初始化后的转移矩阵方差造成了梯度消失和梯度爆炸的问题,而使用线性 RNNs 代替时会出现更短的记忆偏差,这一理论经过人工数据和真实数据的验证。
Jan, 2021
本研究发现在 Inception 网络中加入残差连接有助于加速训练并提高图像识别性能,同时还提出了几种优化的网络结构,实验结果在 ILSVRC 2012 分类任务中取得了显著的性能提升。
Feb, 2016
通过发现神经网络中的 “消散输入” 现象,我们揭示了残差学习背后的基本原理,从而解决了深度可扩展的普通神经网络训练中收敛失败的挑战,并提出了 “普通神经网络假设”(PNNH)来支持无残差连接的深度普通神经网络训练,通过在流行的视觉基准测试中对 PNNH 启用的 CNN 架构和 Transformers 进行全面评估,并展示了与 ResNets 和视觉 Transformers 相比的相当准确性、高达 0.3% 更高的训练吞吐量和 2 倍更好的参数效率。
Feb, 2024
本文研究残差连接对神经网络假设空间覆盖数以及泛化能力的影响,证明了哪怕是固定了权重矩阵和非线性函数的总数,残差连接不会增加神经网络的假设复杂性,并基于假设空间覆盖数得到了 ResNet 等采用残差连接的深度神经网络的多类泛化界。根据此泛化界,我们可以使用正则化项控制权重矩阵的模不要过度增大,以尽量达到良好的泛化性能。
Apr, 2019
研究深度残差网络(ResNet)、循环神经网络(RNN)和灵长类视觉皮层之间的关系。作者提出了一种将浅层 RNN 与 ResNet 进行结合以及一种基于 RNN 的新型神经网络架构,并通过对 CIFAR-10 和 ImageNet 数据集的测试证明了其有效性。
Apr, 2016