初始猜测偏差：未经培训的神经网络偏向某些类别

Jun, 2023

初始猜测偏差：未经培训的神经网络偏向某些类别

Initial Guessing Bias: How Untrained Networks Favor Some Classes

Emanuele Francazi, Aurelien Lucchi, Marco Baity-Jesi

TL;DR研究表明，神经网络中的 “Initial Guessing Bias” 现象与其结构有关，对网络的选择与初始化有实际指导意义。

Abstract

The initial state of neural networks plays a central role in conditioning the subsequent training dynamics. In the context of classification problems, we provide a theoretical analysis demonstrating that the stru

neural network classification initial state activation function architecture selection

发现论文，激发创造

早期和晚期隐性偏见的二分法可以显然地引发 Grokking

该研究探讨在理论环境中学习算术任务中的 “理解” 现象，并表明它可以通过早期和晚期的内隐偏差引发。具体而言，当使用大初始化和小权重衰减的同质神经网络在分类和回归任务上进行训练时，我们证明训练过程会长时间陷入与核心预测器对应的解决方案，然后发生极端转变，达到最小范数 / 最大边界预测器，从而导致测试准确性的巨大变化。

Nov, 2023

深度线性网络中初始化对隐性偏差的作用

该研究聚焦于探索深度学习中的隐含偏差现象，具体研究了权重初始化对优化和泛化问题的影响，通过调查使用深度网络解决欠定线性系统问题时初始化的隐式正则化的作用，有助于更全面地理解深度学习的性能特点。

Feb, 2024

深度线性分类中的隐式偏见：初始化规模与训练准确性

研究了在 “对角线线性网络” 上最小化指数损失的梯度流轨迹及其隐式优化偏差的详细渐近研究，揭示了 “核” 与非 “核”（“丰富” 或 “活跃”）状态之间的转换如何受初始缩放和最小化训练损失的精度之间的关系控制，结果表明，梯度下降的某些极限行为仅在荒谬的训练精度（远远低于 $10^{-100}$）时才能发挥作用。此外，在合理的初始化尺度和训练精度下，隐式偏差更为复杂，超出了这些极限的范畴。

Jul, 2020

深度学习的隐性偏见：渐增学习如何推动泛化

本文定义了增量学习动力学的概念并证明了在深度为多项式关系和初始化条件正确的情况下，神经网络可以展现出增量学习能力，且通过实验证明在使用深度学习模型中，梯度下降算法有助于寻找简单的模型解。

Sep, 2019

卷积神经网络初步凝结的理解

本研究探讨了卷积神经网络在小初始化和梯度训练方法下内核权重的凝聚现象，实验证明该现象在卷积神经网络中同样存在且显著。理论上，本研究证明在有限的训练期间，具有小初始化的两层卷积神经网络内核将收敛至一个或几个方向，为对具有专业结构的神经网络表现出的非线性训练行为的更好理解迈出了一步。

May, 2023

两层网络训练中的早期对齐是双刃剑

使用一阶优化方法训练神经网络是深度学习实验成功的核心。在小的初始化下，训练动力学的早期阶段会导致神经元朝关键方向对齐，从而引发网络的稀疏表示，这与渐近梯度流的隐式偏差相关。然而，这种稀疏诱导的对齐会导致在最小化训练目标上面临困难，我们还提供了一个简单的数据示例，说明过度参数化的网络无法收敛到全局极小值点，而只能收敛到一个虚假的稳定点。

Jan, 2024

卷积神经网络的数据相关初始化

该研究提出了一种快速、简单的数据依赖初始化过程，可避免幻灭或爆炸梯度，并能够与当前领先的无监督或自监督预训练方法相匹配，同时比前人的方法快大约三个数量级，当与预训练方法结合时，可以显著优于先前的工作，在监督和无监督预训练之间缩小差距。

Nov, 2015

SGD 训练中偏差动态的理论洞见

机器学习系统通常通过利用数据中的不希望的特征获得偏差，对不同的亚群体造成不同程度的精确度影响。本文探讨了在教师 - 学生模型中，模拟不同数据亚群体的高斯混合模型，偏差如何演化的问题。我们提供了这种设置下线性分类器随机梯度下降动力学的解析描述，该描述在高维度下被证明是准确的。值得注意的是，我们的分析揭示了亚群体的不同属性在不同时间尺度上如何影响偏差，展示了分类器在训练过程中偏好的转变。将我们的发现应用于公平性和鲁棒性，我们阐述了异质数据和虚假特征如何生成和放大偏差的时间与方式。通过在合成数据集和真实数据集（包括 CIFAR10，MNIST 和 CelebA）上训练更深层次的网络来经验性地验证我们的结果。

May, 2024

激活函数对深度神经网络训练的影响

通过对「边缘混沌」的理论分析，研究了深度神经网络中各参数的选取对模型训练加速和性能提升的影响。

Feb, 2019

对比学习中归纳偏置的理论研究

本研究针对自监督学习提供了首个理论分析，其中包括来自模型类祖产的归纳偏差的影响。我们特别关注对比学习 - 一种在视觉领域广泛使用的自监督学习方法。我们发现，当模型具有有限的容量时，对比表示将恢复与模型结构兼容的某些特殊聚类结构，但忽略数据分布中的许多其他聚类结构，从而捕捉了更加现实的情景。我们将理论实例化为几个合成数据分布，并提供实证证据来支持该理论。

Nov, 2022