动态等比性：神经网络剪枝中的遗漏要素

May, 2021

动态等比性：神经网络剪枝中的遗漏要素

Dynamical Isometry: The Missing Ingredient for Neural Network Pruning

Huan Wang, Can Qin, Yue Bai, Yun Fu

TL;DR通过动态同构的视角，本文从裁剪作为初始化角度研究了神经网络裁剪，发现直接使用裁剪后的权重作为初始化不利于微调，回答了为什么更大的 fine-tuning 学习速率可以显著提高最终性能的疑问，并揭示了裁剪价值的谜团。

Abstract

Several recent works [40, 24] observed an interesting phenomenon in neural network pruning: A larger finetuning learning rate can improve the final performance significantly. Unfortunately, the reason behind it r

neural network pruning finetuning dynamical isometry initialization performance

发现论文，激发创造

通过动态等向性在深度学习中复苏 Sigmoid 函数：理论与实践

本文采用自由概率理论的强大工具来分析深度神经网络的输入输出雅可比矩阵的奇异值分布，研究了深度、权重初始化和非线性性之间的关系，发现深度为 ReLU 网络不能实现动态等距，而深度为 Sigmodial 网络只能通过正交权重初始化来实现等距，且正常初始化的深度 Sigmodial 网络学习效率远优于 ReLU 网络。

Nov, 2017

尺度归一化

研究表明，保持等距性 /isometry 可以有效加速深度神经网络的训练，包括确定性和标度归一化方法。结果表明在学习开始时保持等距性很重要，保持等距性可以加速学习。

Apr, 2016

重新思考网络剪枝的价值

本研究发现，在针对低资源设置中减少深度模型推理成本的网络修剪过程中，训练大模型通常不是获得高效终端模型的必要条件，学到的 “重要” 权重通常对小模型没有用，修剪的架构本身比继承的 “重要” 权重更重要，并且此方法可作为架构搜索范式。本文还比较了 “Lottery Ticket Hypothesis”，发现在最佳学习率下，与随机初始化相比，其 “获胜券” 初始化并未带来提高。

Oct, 2018

通过神经网络修剪揭示不变性

我们提出了一种通过修剪学习到的新型网络架构以捕捉数据依赖的不变性的框架，在视觉和表格数据集上，我们学到的网络架构始终比密集神经网络在效率和效果上表现更好。

Sep, 2023

旋转优化器：简单而稳健的深度神经网络训练

本文研究深度神经网络的训练动态，提出旋转变量优化器，通过移除传递相应收敛期可达到与原始变量优化器类似的性能，降低了对学习率热身的需求，并改善了对网络归一化不足的优化。

May, 2023

ReZero 是您所需的：在大深度下快速收敛

通过使用零初始化参数对残差连接进行门控，满足初始动态等性，可以在深度学习中进行更快的收敛和更好的测试表现，并且我们可以轻松地训练 120 层变压器。

Mar, 2020

残差网络通过通用的激活函数实现动态等比特性

本文研究了残差神经网络中动态同构的可达性，借助自由概率和随机矩阵理论，我们导出了初始化时输入输出雅可比矩阵谱密度的通用公式，在大型网络中我们得到了一个依赖于单个参数的奇异值谱，并分析了各种常见激活函数的信号传播，我们通过随机矩阵和 CIFAR-10 分类问题的数值模拟证实了结果，并研究了这种普适性行为对学习过程的影响，最后得出结论：在初始化时选择相同水平的动态同构可以消除激活函数的影响，促进学习。

Sep, 2018

训练前进行修剪可能改善泛化性能，可以证明

该研究可以通过不同的修剪比率来影响模型的梯度下降动态和泛化性能，但是过高的修剪比率可能会导致模型性能下降，从而导致模型无法学习到有用的特征。

Jan, 2023

有意义的网络剪枝：重新训练变体的案例研究

本文分析不同的修剪机制对神经网络修剪重训练的影响

May, 2021

初始化时的鲁棒剪枝

深度神经网络修剪方法的全面理论分析及其在各种网络架构上的实验验证。

Feb, 2020