尺度归一化
该论文探讨了深度神经网络中的 Gram 矩阵结构,在多层感知器中给出了层归一化与激活层一起导致 Gram 矩阵趋向等距的证明,进一步阐明了高阶 Hermite 系数在此方面的重要性。
May, 2023
本研究针对深度网络权重空间中的对称性问题,探讨了使用基于单位范数的约束来改善权重空间对称性问题的方法,并通过 MNIST 数据集上的实验证明该方法优于批量归一化方法且不会影响权重更新的计算性能。
Nov, 2015
本文采用自由概率理论的强大工具来分析深度神经网络的输入输出雅可比矩阵的奇异值分布,研究了深度、权重初始化和非线性性之间的关系,发现深度为 ReLU 网络不能实现动态等距,而深度为 Sigmodial 网络只能通过正交权重初始化来实现等距,且正常初始化的深度 Sigmodial 网络学习效率远优于 ReLU 网络。
Nov, 2017
定义了一种二阶神经网络随机梯度训练算法,其块对角结构有效地实现了单元激活的归一化,并研究了该算法在稳健性方面的不足之处,揭示了步长缩放的新方式以及处理成本曲率快速变化的重要性。
May, 2017
基于第二阶损失景观信息的自动缩放方法,以灵活适应视觉变换器中的跳跃连接;在 DeiT-S 与 ImageNet100 上广泛评估,相较于传统缩放,准确率提高 2.5%,参数效率提高 10%;缩放网络在从头训练小规模数据集时表现出卓越性能,是视觉变换器的首个完整缩放机制,实现高效模型缩放的一步。
Feb, 2024
通过引入一种快速的迭代方法,可以最小化权重的 L2 范数,同时提高了测试准确率,从而为小批量数据提供了一种替代 CIFAR-10 和 ImageNet 的 ResNet-18 中的批量和分组规范化方法
Feb, 2019
本文提出了两种基于对称不变梯度的权重更新方式,使用这些方式进行学习可以提高测试性能而不损失权重更新的计算效率。在 MNIST 数据集上,我们的实验证据表明这些更新有效,并且我们还展示了在图像分割问题上采用这些权重更新方法的训练结果。
Nov, 2015
本研究提出通过添加 ScaleNorm 的简单架构调整方法,在残差网络中使用 Group Normalisation 来改善由 Differentially Private Stochastic Gradient Descent 训练的神经网络的精度和隐私保护之间的 trade-off,并在 CIFAR-10 中取得 82.5%(ε =8.0)的准确度。
Mar, 2022
本文介绍了正则化技术在深度学习中的重要性,以及在使用冲量梯度下降优化器时可能出现的问题和解决方法。作者提出了 SGDP 和 AdamP 两种解决方案,通过去除每次优化步骤中的径向分量或增加规范的方向,来维护深度神经网络的性能,并验证了这些方法对 13 个基准测试任务的实验结果。
Jun, 2020
本文研究通过增加训练集大小来提高深度卷积神经网络图像处理的性能,发现在训练样本数较少时,模型表现随训练样本数增加而迅速提升,但在一定程度上达到饱和,并提出理论解释。
Sep, 2022