深度神经网络中的低秩简约偏差

Mar, 2021

The Low-Rank Simplicity Bias in Deep Networks

Minyoung Huh, Hossein Mobahi, Richard Zhang, Brian Cheung, Pulkit Agrawal...

TL;DR本文提出深度神经网络可归纳地更倾向于寻找低秩嵌入的解，这种偏见在网络深度和宽度，初始化和训练过程中都存在，并且能够提高 CIFAR 和 ImageNet 数据集的泛化性能。

Abstract

Modern deep neural networks are highly over-parameterized compared to the data on which they are trained, yet they often generalize remarkably well. A flurry of recent work has asked: why do deep networks not overfit to their training data? In this work, we make a series of empirical o

deep neural networks inductive bias effective rank embeddings generalization linear over-parameterization

发现论文，激发创造

大深度网络的隐式偏差：非线性函数的秩观念

研究表明，完全连接的神经网络在非线性齐次时的表示成本收敛于非线性函数的排序上，然后研究了何时可以恢复数据的 “真实” 排名，最后发现自编码器具有最优非线性排名是自然的去噪声的。

Sep, 2022

训练不变量和低秩现象：超越线性网络

本论文研究神经网络训练中的隐性偏差，探究梯度流和梯度下降的极限情况下，使用对数或指数损失函数对线性可分数据进行训练的深度线性网络的权重收敛于秩 1 矩阵的现象是否会发生于全连接层和跳跃连接层的 ReLU 激活前馈网络中，提出了一些训练不变性，并以特定参数方向收敛的 ReLU 网络的常数权重和多线性函数作为论据进行证明。

Jan, 2022

深度学习具有泛化能力是因为参数 - 函数映射倾向于简单函数

本文提供了深度神经网络的隐式正则化和广义性能的新解释，即表明深度神经网络的参数 - 函数映射应该具有指数偏向简单函数的现象，并且该内在的简单性依赖有助于解释为什么深度网络在现实世界的问题上具有良好的泛化性能。此外，本文提出了一种基于 PAC-Bayes 理论的方法，可以保证目标函数产生高似然训练集时的良好期望泛化，而且该方法的普适性更好。

May, 2018

神经网络中简化偏差的陷阱

本文旨在通过设计包含不同时简单性的多个预测特征的数据集，捕捉实际训练数据中的非鲁棒性，从理论和实证研究中发现简洁性偏见在训练神经网络中的作用及其对泛化和鲁棒性的影响，提出新算法以避免简洁性偏见的缺陷。

Jun, 2020

改善深度学习中的简化偏差，促进超出分布的普适性和鲁棒性

神经网络对简单特征具有偏好，本文提出了一种鼓励模型使用多样性特征进行预测的框架，通过训练一个简单模型并对其进行条件互信息的正则化，解决了简单性偏差问题，并在各种问题设置和实际应用中显示了其有效性，提高了模型的性能以及鲁棒性和公平性。

Oct, 2023

一层隐藏层神经网络中的简单性偏差

该研究通过严格定义和深入探究神经网络的简单性偏差，理论上和经验上均证明在解决任务时只学习低维度输入的特征，不依赖于更复杂的特征，同时提出一种基于特征的训练顺序的集成方法，能够使得模型对高斯噪声具有更强的鲁棒性。

Feb, 2023

神经排序崩溃：权重衰减和小的内类变异性带来低秩偏差

深度学习中的低秩偏好与神经网络的神经层塌陷现象相关，权重衰减参数的增长导致网络中每一层的秩与前一层隐藏空间嵌入的类内变异成正比减少。

Feb, 2024

线性神经网络层促进单 / 多指数模型学习

本文探讨了超参数神经网络中大于两层的隐式偏差。通过添加线性层，可以优化神经网络的表示成本，并提高实际子空间的准确匹配度与预测性能。

May, 2023

深度网络中的泛化（IIIb 理论）

该论文研究了深度神经网络中过拟合的问题，证明了使用特定的损失函数时神经网络的收敛性及性能，提出了一种实用的判断不同零最小化点泛化性能的方法。

Jun, 2018

深度学习的隐性偏见：渐增学习如何推动泛化

本文定义了增量学习动力学的概念并证明了在深度为多项式关系和初始化条件正确的情况下，神经网络可以展现出增量学习能力，且通过实验证明在使用深度学习模型中，梯度下降算法有助于寻找简单的模型解。

Sep, 2019