本文采用自由概率理论的强大工具来分析深度神经网络的输入输出雅可比矩阵的奇异值分布,研究了深度、权重初始化和非线性性之间的关系,发现深度为 ReLU 网络不能实现动态等距,而深度为 Sigmodial 网络只能通过正交权重初始化来实现等距,且正常初始化的深度 Sigmodial 网络学习效率远优于 ReLU 网络。
Nov, 2017
研究表明,保持等距性 /isometry 可以有效加速深度神经网络的训练,包括确定性和标度归一化方法。结果表明在学习开始时保持等距性很重要,保持等距性可以加速学习。
Apr, 2016
本研究发现,在针对低资源设置中减少深度模型推理成本的网络修剪过程中,训练大模型通常不是获得高效终端模型的必要条件,学到的 “重要” 权重通常对小模型没有用,修剪的架构本身比继承的 “重要” 权重更重要,并且此方法可作为架构搜索范式。本文还比较了 “Lottery Ticket Hypothesis”,发现在最佳学习率下,与随机初始化相比,其 “获胜券” 初始化并未带来提高。
Oct, 2018
我们提出了一种通过修剪学习到的新型网络架构以捕捉数据依赖的不变性的框架,在视觉和表格数据集上,我们学到的网络架构始终比密集神经网络在效率和效果上表现更好。
Sep, 2023
本文研究深度神经网络的训练动态,提出旋转变量优化器,通过移除传递相应收敛期可达到与原始变量优化器类似的性能,降低了对学习率热身的需求,并改善了对网络归一化不足的优化。
May, 2023
通过使用零初始化参数对残差连接进行门控,满足初始动态等性,可以在深度学习中进行更快的收敛和更好的测试表现,并且我们可以轻松地训练 120 层变压器。
Mar, 2020
本文研究了残差神经网络中动态同构的可达性,借助自由概率和随机矩阵理论,我们导出了初始化时输入输出雅可比矩阵谱密度的通用公式,在大型网络中我们得到了一个依赖于单个参数的奇异值谱,并分析了各种常见激活函数的信号传播,我们通过随机矩阵和 CIFAR-10 分类问题的数值模拟证实了结果,并研究了这种普适性行为对学习过程的影响,最后得出结论:在初始化时选择相同水平的动态同构可以消除激活函数的影响,促进学习。
Sep, 2018
该研究可以通过不同的修剪比率来影响模型的梯度下降动态和泛化性能,但是过高的修剪比率可能会导致模型性能下降,从而导致模型无法学习到有用的特征。
Jan, 2023
本文分析不同的修剪机制对神经网络修剪重训练的影响
May, 2021
深度神经网络修剪方法的全面理论分析及其在各种网络架构上的实验验证。
Feb, 2020