CNN 的动态同构性及均场理论:如何训练一万层 Vanilla 卷积神经网络
研究表明,使用正交性标准化的变种正则化方法和基于 “准同构假设” 的反向错误调节机制可以在不使用任何快捷方式 / 身份映射的情况下,训练一种特定结构(重复三模块的 Conv-BNReLU)的极深卷积神经网络(CNN),实验结果表明,这种方法可以在 CIFAR-10 和 ImageNet 数据集上显着提高 44 层和 110 层的网络的性能,并且可以成功地通过新的设计原则和残差结构来设计网络结构以获得相似的 ImageNet 数据集上的表现。
Mar, 2017
通过使用零初始化参数对残差连接进行门控,满足初始动态等性,可以在深度学习中进行更快的收敛和更好的测试表现,并且我们可以轻松地训练 120 层变压器。
Mar, 2020
本研究使用平均场理论探究了 LSTMs 和 GRUs 中的信号传播,通过优化初始化超参数,开发出了一种新的初始化方案,解决了训练不稳定性问题,从而在多个序列任务上实现了成功的训练,并且在泛化能力上也有积极的影响。
Jan, 2019
该研究论文表明,即使没有标准的图像识别基准测试中的归一化和跳过连接技术,也可以通过在初始化和训练期间强制卷积核接近等距来训练深度神经网络,并达到令人惊讶的好性能,进一步实验证明,如果与跳过连接结合使用,可以达到与标准 ResNet 相当甚至更好的性能。
Jun, 2020
本文采用自由概率理论的强大工具来分析深度神经网络的输入输出雅可比矩阵的奇异值分布,研究了深度、权重初始化和非线性性之间的关系,发现深度为 ReLU 网络不能实现动态等距,而深度为 Sigmodial 网络只能通过正交权重初始化来实现等距,且正常初始化的深度 Sigmodial 网络学习效率远优于 ReLU 网络。
Nov, 2017
本文研究了卷积神经网络在面对微小图像变换时不具有不变性及其成因。作者提出传统的卷积架构不满足传统采样定理及数据增强只适用于与训练集中典型图像相似的图像,且两种解决方案只能部分解决问题。因此,在网络保持高准确率的情况下保证不变性的问题仍未解决。
May, 2018
深度神经网络具有自动从原始数据中学习相关特征的能力,但完全连接(FC)和卷积架构(CNN)中的特征学习方式不同。本研究通过理论和实验证明了有限宽度 FC 网络的泛化性能可以通过选择适当的高斯先验来获得无限宽度网络的结果,而具有卷积隐藏层的架构则展现出了一种不同的特征学习方式。
Jul, 2023
本文通过 mean field 理论和随机矩阵理论的结合,解析了 recurrent neural networks 中 gating 机制的信号传播机理,并通过最小化的多层感知器网络 (minimalRNN) 与 RNN 的对比,研究了它们的训练性能。提出了初始方案的动态等角分解,并通过语言建模任务,证明了最小 RNN 可以与 LSTM 或 GRU 等复杂网络相媲美。
Jun, 2018
本文将深度卷积神经网络的前向传播解释为一种时变的非线性微分方程,并将其训练过程看作微分方程参数的控制过程,提出了两种新的多尺度方法以缩放 CNN,第一种方法通过 CNN 参数的伸缩,连接低分辨率和高分辨率数据,实现使用低分辨率图像训练的 CNN 对高分辨率图像进行分类,并加速学习过程,第二种方法通过连接浅层和深层网络,逐渐增加 CNN 的深度并复用参数进行初始化。
Mar, 2017
本文旨在加速卷积神经网络(CNNs)的测试时间计算,特别是对计算机视觉领域产生重大影响的非常深的 CNNs。通过开发一种不需要随机梯度下降(SGD)的有效解决方案,解决产生的非线性优化问题,我们提出了一种新的非线性方法,在对多个层进行逼近时实现了一种不对称重建,以减少快速积累误差,并成功地在 Object detection 中实现了优雅的精度降级。
May, 2015