大深度网络的隐式偏差：非线性函数的秩观念

Sep, 2022

大深度网络的隐式偏差：非线性函数的秩观念

Implicit Bias of Large Depth Networks: a Notion of Rank for Nonlinear Functions

Arthur Jacot

TL;DR研究表明，完全连接的神经网络在非线性齐次时的表示成本收敛于非线性函数的排序上，然后研究了何时可以恢复数据的 “真实” 排名，最后发现自编码器具有最优非线性排名是自然的去噪声的。

Abstract

We show that the representation cost of fully connected neural networks with homogeneous nonlinearities - which describes the implicit bias in function space of networks with $L_2$-regularization or with losses s

neural networks nonlinearities rank loss functions autoencoders

发现论文，激发创造

训练不变量和低秩现象：超越线性网络

本论文研究神经网络训练中的隐性偏差，探究梯度流和梯度下降的极限情况下，使用对数或指数损失函数对线性可分数据进行训练的深度线性网络的权重收敛于秩 1 矩阵的现象是否会发生于全连接层和跳跃连接层的 ReLU 激活前馈网络中，提出了一些训练不变性，并以特定参数方向收敛的 ReLU 网络的常数权重和多线性函数作为论据进行证明。

Jan, 2022

深度神经网络中的低秩简约偏差

本文提出深度神经网络可归纳地更倾向于寻找低秩嵌入的解，这种偏见在网络深度和宽度，初始化和训练过程中都存在，并且能够提高 CIFAR 和 ImageNet 数据集的泛化性能。

Mar, 2021

深度神经网络中的降维

本文研究神经网络的秩与结构缺陷，通过理论和实验发现了深度神经网络中秩缺陷和分类的独立性缺陷。

Jun, 2022

线性神经网络层促进单 / 多指数模型学习

本文探讨了超参数神经网络中大于两层的隐式偏差。通过添加线性层，可以优化神经网络的表示成本，并提高实际子空间的准确匹配度与预测性能。

May, 2023

回归问题的深度线性网络在隐含规范化方面趋向于平坦的最小值

神经网络的海森矩阵的最大特征值（或清晰度）是理解其优化动态的关键量。本文研究超定单变量回归的深度线性网络的清晰度。虽然最小化器的清晰度可以任意大，但不可以任意小。事实上，我们证明了最小化器清晰度的下界与深度成线性增长。然后我们研究了梯度流找到的最小化器的性质，这是梯度下降的极限情况，学习率趋于零。我们证明了对于平坦最小值的隐式正则化：最小化器的清晰度不超过下界的一个常数倍。该常数取决于数据协方差矩阵的条件数，而不取决于宽度或深度。我们分别证明了小尺度初始化和残差初始化的结果。对于小尺度初始化，我们证明了所学权重矩阵近似为秩一及其奇异向量对齐。对于残差初始化，我们证明了高斯初始化的残差网络的梯度流的收敛性。数值实验验证了我们的结果，并将其与非零学习率的梯度下降联系在一起。

May, 2024

神经排序崩溃：权重衰减和小的内类变异性带来低秩偏差

深度学习中的低秩偏好与神经网络的神经层塌陷现象相关，权重衰减参数的增长导致网络中每一层的秩与前一层隐藏空间嵌入的类内变异成正比减少。

Feb, 2024

深度网络中的泛化（IIIb 理论）

该论文研究了深度神经网络中过拟合的问题，证明了使用特定的损失函数时神经网络的收敛性及性能，提出了一种实用的判断不同零最小化点泛化性能的方法。

Jun, 2018

使用逻辑损失训练的宽两层神经网络的梯度下降的隐含偏见

分析了具有同质性激活函数的两层神经网络在无限宽的情况下的训练和泛化行为，并表明在存在低维结构的情况下，梯度流的极限可以完全表征为某些函数空间中的最大间隔分类器，并且具有强的泛化边界，在实践中符合两层神经网络的行为，并证明了其隐式偏差的统计优点。

Feb, 2020

神经表征的拓扑分类的秩分解

神经网络的拓扑结构及同调群，以及仿射映射与任务连续性的关系的研究。

Apr, 2024

学习特征中的瓶颈结构：低维度与规则性的权衡

该研究旨在证明具有大深度和 L2 正则化的 DNN 在学习输入时会产生 “瓶颈结构”（低维表示），并介绍了一种衡量网络内在维度和复杂性 / 不规则性之间平衡的方法。

May, 2023