SGD 训练中偏差动态的理论洞见

May, 2024

Bias in Motion: Theoretical Insights into the Dynamics of Bias in SGD Training

Anchit Jain, Rozhin Nobahari, Aristide Baratin, Stefano Sarao Mannelli

TL;DR机器学习系统通常通过利用数据中的不希望的特征获得偏差，对不同的亚群体造成不同程度的精确度影响。本文探讨了在教师 - 学生模型中，模拟不同数据亚群体的高斯混合模型，偏差如何演化的问题。我们提供了这种设置下线性分类器随机梯度下降动力学的解析描述，该描述在高维度下被证明是准确的。值得注意的是，我们的分析揭示了亚群体的不同属性在不同时间尺度上如何影响偏差，展示了分类器在训练过程中偏好的转变。将我们的发现应用于公平性和鲁棒性，我们阐述了异质数据和虚假特征如何生成和放大偏差的时间与方式。通过在合成数据集和真实数据集（包括 CIFAR10，MNIST 和 CelebA）上训练更深层次的网络来经验性地验证我们的结果。

Abstract

machine learning systems often acquire biases by leveraging undesired features in the data, impacting accuracy variably across different sub-populations. Current understanding of bias formation mostly focuses on

machine learning bias formation teacher-student setup stochastic gradient descent fairness and robustness

发现论文，激发创造

有偏差 SGD 指南

本文分析了带偏估计器的随机梯度下降（BiasedSGD）算法在凸和非凸环境下的效果并比较了带偏估计器和无偏估计器的优缺点，同时提出了一组新的比以往任何假设更弱的假设，并通过实验结果验证了理论发现。

May, 2023

隐式偏差对于对角线线性网络 SGD 的影响：随机性的证明性效益

本文研究了随机梯度下降在对角线线性网络上的动态规律，证明了它比梯度下降的解具有更好的泛化性能，并发现收敛速度控制偏见效应的大小，结果支持了结构化噪声可以引起更好泛化性能的理论结论。

Jun, 2021

将统计学习理论应用于深度学习

从学习理论的角度来理解深度学习时，我们讨论了一些主要问题，包括统计学习理论、随机优化、梯度下降对线性对角网络的隐式偏差。

Nov, 2023

梯度噪声的隐含偏差：对称性视角

当存在连续对称性时，我们表征了随机梯度下降法（SGD）的学习动力学，它与梯度下降法之间的差异是显著的。我们将对称性对学习动力学的影响分为两类：其中一类对称性，SGD 自然地收敛于具有平衡和对齐梯度噪声的解；另一类对称性下，SGD 几乎总是发散。然后，我们证明了即使丢失函数中不存在对称性，我们的结果仍然适用并可以帮助我们理解训练动力学。我们的主要结果是普适的，仅依赖于对称性的存在，而与丢失函数的细节无关。我们证明了提出的理论解释了渐进锐化和平坦化，并可应用于常见的实际问题，如表示规范化，矩阵分解和预热的使用。

Feb, 2024

深度生成模型中的偏差和泛化：一个实证研究

本文提出一个系统研究深度生成模型的偏差和泛化的框架，并通过认知心理学实验方法探讨其生成新属性和组合的特点与人类心理学的相似之处。作者发现这些模式与常用模型和结构一致。

Nov, 2018

含噪声 SGD 中的隐式偏差：与差分隐私训练的应用

使用小批量随机梯度下降（SGD）训练深度神经网络（DNNs）相对于大批量训练具有卓越的测试性能。这种随机梯度下降的特定噪声结构被认为是导致这种隐式偏差的原因。使用差分隐私（DP）确保 DNN 的训练时，DP-SGD 会向截断梯度添加高斯噪声。然而，大批量训练仍然导致显著的性能下降，这构成了一个重要的挑战，因为强 DP 保证需要使用大规模批次。我们首先展示这种现象也适用于无噪声 SGD（无截断的 DP-SGD），表明随机性（而不是截断）是这种隐式偏差的原因，即使加入了额外的各向同性高斯噪声。我们在线性最小二乘和对角线线性网络设置中理论上分析了连续版本的无噪声 SGD 所得到的解，并揭示了隐式偏差确实被额外的噪声放大。因此，大批量 DP-SGD 训练的性能问题根源于 SGD 的相同潜在原则，为大批量训练策略的潜在改进提供了希望。

Feb, 2024

深度矩阵分解的梯度下降算法：动力学和从低秩隐含的偏差

本文研究用于解决深度学习的隐含偏差问题的梯度下降算法动态收敛性，在线性网络和估计问题上，分析梯度下降中的 “有效秩” 动态变化，提出了矩阵低秩投影的有效秩，为理解深度学习奠定了基础。

Nov, 2020

随机梯度下降法与有偏梯度的收敛性

分析了带偏差随机梯度方法的复杂性，特别是在非凸函数上的收敛性及更好的速率，探究了偏差大小对达到的准确性和收敛速率的影响，阐述了偏差梯度在分布式学习和无导数优化中的应用广泛性。

Jul, 2020

形状对噪声协方差隐式偏差的影响

本文中，我们理论上证明了随机梯度下降法（SGD）中参数相关噪声（由小批量或标签扰动引起）比高斯噪声更加有效，并且具有对训练过度参数化模型的重要隐式正则化效应。

Jun, 2020

利用模拟来识别人工智能中的偏见

通过高保真计算机模拟和贝叶斯参数搜索，诊断机器学习模型中的偏倚问题，特别是面部识别商业 API 中的人口统计学偏见。

Sep, 2018