尺度归一化

ICLRApr, 2016

Scale Normalization

Henry Z. Lo, Kevin Amaral, Wei Ding

TL;DR研究表明，保持等距性 /isometry 可以有效加速深度神经网络的训练，包括确定性和标度归一化方法。结果表明在学习开始时保持等距性很重要，保持等距性可以加速学习。

Abstract

One of the difficulties of training deep neural networks is caused by improper scaling between layers. scaling issues introduce exploding

deep neural networks scaling isometry determinant learning

发现论文，激发创造

关于激活和标准化对于初始情况下获得等距嵌入的影响

该论文探讨了深度神经网络中的 Gram 矩阵结构，在多层感知器中给出了层归一化与激活层一起导致 Gram 矩阵趋向等距的证明，进一步阐明了高阶 Hermite 系数在此方面的重要性。

May, 2023

深度网络中对称性的理解

本研究针对深度网络权重空间中的对称性问题，探讨了使用基于单位范数的约束来改善权重空间对称性问题的方法，并通过 MNIST 数据集上的实验证明该方法优于批量归一化方法且不会影响权重更新的计算性能。

Nov, 2015

通过动态等向性在深度学习中复苏 Sigmoid 函数：理论与实践

本文采用自由概率理论的强大工具来分析深度神经网络的输入输出雅可比矩阵的奇异值分布，研究了深度、权重初始化和非线性性之间的关系，发现深度为 ReLU 网络不能实现动态等距，而深度为 Sigmodial 网络只能通过正交权重初始化来实现等距，且正常初始化的深度 Sigmodial 网络学习效率远优于 ReLU 网络。

Nov, 2017

神经网络的对角缩放

定义了一种二阶神经网络随机梯度训练算法，其块对角结构有效地实现了单元激活的归一化，并研究了该算法在稳健性方面的不足之处，揭示了步长缩放的新方式以及处理成本曲率快速变化的重要性。

May, 2017

超越均匀缩放：探索神经结构中的深度异质性

基于第二阶损失景观信息的自动缩放方法，以灵活适应视觉变换器中的跳跃连接；在 DeiT-S 与 ImageNet100 上广泛评估，相较于传统缩放，准确率提高 2.5%，参数效率提高 10%；缩放网络在从头训练小规模数据集时表现出卓越性能，是视觉变换器的首个完整缩放机制，实现高效模型缩放的一步。

Feb, 2024

神经网络的等效标准化

通过引入一种快速的迭代方法，可以最小化权重的 L2 范数，同时提高了测试准确率，从而为小批量数据提供了一种替代 CIFAR-10 和 ImageNet 的 ResNet-18 中的批量和分组规范化方法

Feb, 2019

深度网络中的对称不变优化

本文提出了两种基于对称不变梯度的权重更新方式，使用这些方式进行学习可以提高测试性能而不损失权重更新的计算效率。在 MNIST 数据集上，我们的实验证据表明这些更新有效，并且我们还展示了在图像分割问题上采用这些权重更新方法的训练结果。

Nov, 2015

使用规模标准化实现差分隐私残差网络训练

本研究提出通过添加 ScaleNorm 的简单架构调整方法，在残差网络中使用 Group Normalisation 来改善由 Differentially Private Stochastic Gradient Descent 训练的神经网络的精度和隐私保护之间的 trade-off，并在 CIFAR-10 中取得 82.5%（ε =8.0）的准确度。

Mar, 2022

AdamP：针对尺度不变权重下动量优化器的减缓减速方法

本文介绍了正则化技术在深度学习中的重要性，以及在使用冲量梯度下降优化器时可能出现的问题和解决方法。作者提出了 SGDP 和 AdamP 两种解决方案，通过去除每次优化步骤中的径向分量或增加规范的方向，来维护深度神经网络的性能，并验证了这些方法对 13 个基准测试任务的实验结果。

Jun, 2020

基于深度学习的图像重建的比例律

本文研究通过增加训练集大小来提高深度卷积神经网络图像处理的性能，发现在训练样本数较少时，模型表现随训练样本数增加而迅速提升，但在一定程度上达到饱和，并提出理论解释。

Sep, 2022