训练过程中可用信息和最优表示的演化

Oct, 2020

训练过程中可用信息和最优表示的演化

Usable Information and Evolution of Optimal Representations During Training

Michael Kleinman, Daksh Idnani, Alessandro Achille, Jonathan C. Kao

TL;DR本文提出了关于深度神经网络所学习的可用信息的概念，并用它来研究训练过程中如何生成最佳任务表示。我们展示了使用高学习率和小批量大小的随机梯度下降算法进行训练所产生的隐式正则化在学习任务的最小充分表示方面扮演着重要角色。在产生最小充分表示的过程中，我们发现表示内容在训练期间动态变化。特别是，我们发现在最初的瞬态训练阶段编码了在语义上有意义但最终无关紧要的信息，然后在后续被丢弃。此外，我们评估了扰动训练初始阶段对学习动态和产生的表示的影响。我们在受到神经科学文献启发的感知决策任务以及标准图像分类任务中展示了这些效应。

Abstract

We introduce a notion of usable information contained in the representation learned by a deep network, and use it to study how optimal representations for the task emerge during training, and how they adapt to different tasks. We use this to characterize the transient dynamics of deep neural networks on perceptual decision-making tasks inspired by neuroscien

发现论文，激发创造

深度线性神经网络学习非线性动力学的精确解

通过对深度线性神经网络的学习动态进行系统分析，我们发现这些网络表现出类似于非线性神经网络的非线性学习现象，包括长时间的平原，然后快速转换到更低误差的解决方案，以及从贪婪的无监督预训练初始条件下的更快收敛等。同时，我们发现在权重的某些特殊初始条件下，非监督预训练可以找到这些初始条件，同时表现出深度独立的学习时间，而随机高斯初始化则做不到。

Dec, 2013

深度表征中的不变性和分解性的出现

使用统计和信息理论的已建立原则，我们展示了深度神经网络中对无关因素的不变性等同于学习表示的信息最小性，而叠加层和在训练期间注入噪声自然偏向于学习不变表示。我们进一步分解了训练过程中使用的交叉熵损失，强调了内在的过拟合项。我们提出通过两种等效方式来限制这样的项的正则化损失：一种是使用 Kullbach-Leibler 项，它与 PAC-Bayes 视角相关；另一种是使用权重中的信息作为学习模型复杂度的度量，从而为权重提供了一种新的信息瓶颈。最后，我们展示出在神经网络中学习到的表示组件的不变性和独立性在权重中的信息上限和下限是有界的，因此在训练过程中自动优化。该理论使我们能够量化和预测使用我们的正则化损失时随机标签下欠拟合和过拟合之间的尖锐相变，我们通过实验证实了这一点，并阐明了损失函数的几何形状、学习表示的不变性属性和泛化误差之间的关系。

Jun, 2017

由 Ornstein-Uhlenbeck 过程驱动的深度神经网络的隐式正则化

研究采用随机梯度下降法训练的神经网络，通过对每一次迭代的训练标签进行独立噪声扰动，得到一个隐式正则化项，从而驱动网络向简单模型发展，并以矩阵感知、一维数据下的两层ReLU网络训练以及单数据点下的两层sigmoid激活网络训练等三个简单场景进行了阐述。

Apr, 2019

相干梯度: 一种理解基于梯度下降的优化中泛化性质的方法

本文提出了一个关于如何解释神经网络使用梯度下降算法泛化能力较强的假设Coherent Gradients，并支持该假设的启发式论证和简单实验证明。同时，该分析为防止过拟合提出了一种自然而然的梯度下降修改方法。

Feb, 2020

深度随机神经网络中均值场和有限宽度之间的连接——基于批量归一化的研究

本文研究了多层感知机中深度与均场预测集中性之间的关系，并提出通过批归一化缓解均场预测中的层间误差放大现象，从而建立了无限深度神经网络的均场预测的集中性界限。

May, 2022

神经网络优化路径的简单几何

本研究探讨了神经网络中采样梯度沿优化路径的基本几何特性，发现这些特性在大多数训练期间保持稳定动态，并提供了线性收敛的理论保证和反映经验实践的学习率计划。

Jun, 2023

当表示对齐时：在表示学习动态中的普适性

在复杂的大规模架构中，深度神经网络的表征学习动态可以用编解码映射为任意平滑函数的有效理论来描述，该理论能够概括多种不同激活函数和架构的深度网络的表征学习动态，并展现类似于“丰富”和“懒惰”区域的现象。

Feb, 2024

完美拟合对表示学习的影响：深度神经网络中的表示训练动态

通过揭示深度神经网络（DNNs）在训练过程中的演变，本文重点关注在过度参数化学习环境下，训练持续进行的情况，探讨了学习表示的演变以及层级之间的相似性和线性分类器探针的相似度等指标，并发现了与相对层级深度、DNN宽度和架构有关的训练动态模式。同时，对Vision Transformer进行了研究，展示了完美拟合阈值在编码器块中表示演变方面的转变。

May, 2024

神经网络和人类中的最优恒定解的早期学习

在这篇研究中，我们展示了实证和理论上的结果，证明深度神经网络在学习目标函数之前存在一个早期阶段，其中网络学习最佳常数解（OCS），即初始模型的响应与目标标签的分布相匹配，完全忽略输入中提供的信息。通过使用分层类别学习任务，我们推导出具有偏移项训练的深度线性网络学习动力学的精确解。即使初始化为零，这个简单的结构特征也会引起早期动力学的显著变化。我们确定了这个早期OCS阶段的特征，并说明了这些特征在深度线性网络和更复杂（非线性）卷积神经网络在基于MNIST和CIFAR10的分层学习任务中的观察结果。我们通过证明深度线性网络在早期学习过程中必然学习OCS来解释这些观察结果。为了进一步探索我们结果的普遍性，我们训练人类学习者在三天的课程中进行类别学习任务。然后，我们通过真实负样本（正确拒绝）率的动态性质确定了这个早期OCS阶段的定性特征。令人惊讶的是，我们发现人类学习者的行为中也存在对OCS的早期依赖。最后，我们证明OCS的学习甚至可以在没有偏移项的情况下出现，并且同样受到输入数据中的通用相关性的驱动。总体上，我们的研究表明OCS是一种在监督式纠错学习中普遍存在的学习原则，并阐明了其普遍性的机制原因。

Jun, 2024

从懒惰到富有：深线性网络中的精确学习动态

本文研究了初始化对深线性神经网络学习动态的影响，填补了关于权重初始化如何影响网络表示演变的知识空白。作者提出了一种新的方法，通过拉姆达平衡初始化精确推导出学习动态的解决方案，揭示了从懒惰到富有学习模式的转变。研究结果加深了对初始化对学习模式影响的理论理解，具有持续学习、逆转学习和迁移学习的广泛应用潜力。

Sep, 2024