学习正交深度线性神经网络的收敛分析

Nov, 2023

学习正交深度线性神经网络的收敛分析

Convergence Analysis for Learning Orthonormal Deep Linear Neural Networks

Zhen Qin, Xuwei Tan, Zhihui Zhu

TL;DR通过对正交性进行收敛性分析，揭示了正交性对训练深度神经网络的收敛速度的影响，并通过实验证实了理论分析的有效性。

Abstract

Enforcing orthonormal or isometric property for the weight matrices has been shown to enhance the training of deep neural networks by mitigating gradient exploding/vanishing and increasing the robustness of the learned networks. However, despite its practical performance, the theoretic

orthonormality deep neural networks gradient descent convergence analysis hidden layers

发现论文，激发创造

优化深度线性网络中正交初始化的可证明优势

本文研究在深度神经网络的梯度优化中最具影响力的超参数选择之一 —— 初始参数值的选择，分析了不同初始化方案的具体影响，证明了从正交组中绘制初始权重相对于具有独立同分布权重的标准高斯初始化会加速收敛，并且展示了如何通过基于动态等谱性的初始化原理初始化非线性网络以获得最佳效果。

Jan, 2020

关于正交性和学习具有长期依赖性的递归网络

本文探讨了针对深度神经网络和循环神经网络中的梯度消失或梯度爆炸问题，使用正交矩阵作为约束条件以保持梯度范数，并且提出了一种使用矩阵分解和参数化策略的方法以控制反向传播期间所导致的扩张性。通过分析，本文发现硬正交矩阵约束会对收敛速度和模型性能产生负面影响。

Jan, 2017

深度线性神经网络梯度下降的收敛分析

本文研究在白化数据上，通过梯度下降来训练深度线性神经网络收敛到全局最优点的速度。当隐藏层数的维度不小于输入输出维度的最小值，并且初始化的权重矩阵大致平衡且初始损失小于任何秩缺失解时，可保证线性收敛。此外，在输出维度为 1 的情况下，即标量回归，这些条件是满足的，并且在随机初始化方案下具有恒定的概率达到全局最优解。

Oct, 2018

训练 DNNs 中的可控正交化

本文提出了一种使用牛顿迭代法的正交化方法 (ONI)，它可以通过进行迭代来控制权重矩阵的正交性，同时保持模型的表征能力，从而有效地提高图像分类网络和生成对抗网络 (GANs) 的性能。

Apr, 2020

广义反向传播，案例研究：正交性

本研究介绍了一种新的 backpropagation 算法，并使用 Riemannian 几何和优化技术在矩阵流形上实现了层与层之间约束权重的深度神经网络，特别是引入了 Stiefel 层，对于无监督的特征学习至细粒度图像分类有很多好处。

Nov, 2016

梯度下降对齐深度线性网络的层

本篇论文研究了在线性可分数据上应用于深度线性网络的梯度流和梯度下降的风险收敛和渐进权重矩阵对齐 —— 一种隐式正则化方法，详细说明了在套用于严格递减损失函数时（梯度下降的递减步长也是如此）：(i) 风险趋近于 0；（ii）标准化的第 i 个权重矩阵渐进等于其秩 - 1 逼近；（iii）这些秩 - 1 矩阵在层之间对齐，即 |vi+1^Tv_i| -> 1。特别地，在逻辑损失（二元交叉熵）的情况下，还可以说更多的结论：网络激发的线性函数 —— 其权重矩阵的乘积 —— 趋向于与最大边际解同方向。这种性质在之前的工作中已被证明，但仅基于对梯度下降的假设，这里的对齐现象可以证明这些假设。

Oct, 2018

正交深度神经网络

本文提出了正交深度神经网络 (OrthDNNs) 的算法，将其与最近研究的光谱正则化深度学习方法联系起来，证明了神经网络在实践中具有局部等距性和不变性，并提出基于等奇异值的正交权重矩阵的方法和 Bounded Batch Normalization 来提高深度神经网络的泛化性能。

May, 2019

具有单神经元层的深度线性网络的全局收敛分析

本文介绍了深度线性网络的非局部收敛分析，特别是考虑具有一个神经元层的深度线性网络，其收敛点在梯度流下产生的任意起点轨迹上，包括收敛到鞍点或原点之一的路径，本文通过扩展 Eftekhari 的工作，以可证明地标识稳定秩集和全局最小化收敛集来实现这些结果。

Jan, 2022

深度卷积神经网络训练中正交正则化是否有更多优势？

本文旨在探讨如何在训练深度卷积神经网络时实现更有效和易于使用的（近）正交性权重。我们利用各种先进的分析工具，如相互相干性和受限等距性质，开发新型正交性正则化方法，可方便地应用于训练几乎任何卷积神经网络。通过在几个流行的计算机视觉数据集上使用 ResNet、WideResNet 和 ResNeXt 等最先进模型的基准测试，我们观察到使用这些提议的正则化方法后，模型的准确率和收敛速度都有更稳定的提高。我们已经将我们的代码和预训练模型公开。

Oct, 2018

训练不变量和低秩现象：超越线性网络

本论文研究神经网络训练中的隐性偏差，探究梯度流和梯度下降的极限情况下，使用对数或指数损失函数对线性可分数据进行训练的深度线性网络的权重收敛于秩 1 矩阵的现象是否会发生于全连接层和跳跃连接层的 ReLU 激活前馈网络中，提出了一些训练不变性，并以特定参数方向收敛的 ReLU 网络的常数权重和多线性函数作为论据进行证明。

Jan, 2022