从向后错误分析的角度看多任务和持续学习中的隐含偏差

Nov, 2023

从向后错误分析的角度看多任务和持续学习中的隐含偏差

Implicit biases in multitask and continual learning from a backward error analysis perspective

Benoit Dherin

TL;DR使用反向误差分析为神经网络在多任务学习和持续学习设置中计算隐含的训练偏差，并推导出通过随机梯度下降训练时隐含地最小化的修改后的损失函数，其中包括原始损失、隐含的平直度正则化项与冲突项。这里，冲突项可理论上对收敛和隐含正则化产生不良影响，在多任务学习中，冲突项是一个已知量，用于测量任务之间的梯度对齐性，而在持续学习中，冲突项是深度学习优化中的一个新量，尽管在微分几何中是一个基本工具：任务梯度之间的李括号。

Abstract

Using backward error analysis, we compute implicit training biases in multitask and continual learning settings for neural networks trained with

implicit training biases multitask learning continual learning stochastic gradient descent conflict term

发现论文，激发创造

线性神经网络训练中隐性偏差的统一视角

研究了线性神经网络训练中渐进流（即用无穷小步长的梯度下降法）的隐含偏差；提出了神经网络的张量形式，包括全连接、对角线和卷积网络等特例，并研究了称为线性张量网络的公式的线性版本。通过这个公式，我们可以将网络的收敛方向表征为由网络定义的张量的奇异向量。

Oct, 2020

将统计学习理论应用于深度学习

从学习理论的角度来理解深度学习时，我们讨论了一些主要问题，包括统计学习理论、随机优化、梯度下降对线性对角网络的隐式偏差。

Nov, 2023

深度线性分类中的隐式偏见：初始化规模与训练准确性

研究了在 “对角线线性网络” 上最小化指数损失的梯度流轨迹及其隐式优化偏差的详细渐近研究，揭示了 “核” 与非 “核”（“丰富” 或 “活跃”）状态之间的转换如何受初始缩放和最小化训练损失的精度之间的关系控制，结果表明，梯度下降的某些极限行为仅在荒谬的训练精度（远远低于 $10^{-100}$）时才能发挥作用。此外，在合理的初始化尺度和训练精度下，隐式偏差更为复杂，超出了这些极限的范畴。

Jul, 2020

Adam 隐式偏差研究

前人的研究表明，通过反向误差分析可以找到逼近梯度下降轨迹的常微分方程（ODEs）。本文证明 RMSProp 和 Adam 中存在类似的隐式正则化现象，取决于超参数和训练阶段，并与之前的研究有所不同。我们还进行了数值实验，并讨论了这些事实如何影响泛化能力。

Aug, 2023

存在假相关性情况下的持续学习

本文研究了连续学习中数据集偏差对模型知识迁移的影响，并通过设计实验证实了标准 CL 方法会将偏差从一个任务传递到另一个任务，而提出的 Group-class Balanced Greedy Sampling（BGS）插件能有效地解决这一问题。

Mar, 2023

深度矩阵分解的梯度下降算法：动力学和从低秩隐含的偏差

本文研究用于解决深度学习的隐含偏差问题的梯度下降算法动态收敛性，在线性网络和估计问题上，分析梯度下降中的 “有效秩” 动态变化，提出了矩阵低秩投影的有效秩，为理解深度学习奠定了基础。

Nov, 2020

深度学习的隐性偏见：渐增学习如何推动泛化

本文定义了增量学习动力学的概念并证明了在深度为多项式关系和初始化条件正确的情况下，神经网络可以展现出增量学习能力，且通过实验证明在使用深度学习模型中，梯度下降算法有助于寻找简单的模型解。

Sep, 2019

延迟反馈下的学习：隐含适应梯度延迟

针对多台异步运行的机器共同访问的内存环境下的随机凸优化问题，我们提出了一种鲁棒的约束训练方法，其非渐近收敛保证不依赖于更新延迟、目标平滑度和梯度方差的先验知识。与此相反，现有方法严重依赖于这些先验知识，因此不适用于所有共享资源的计算环境，如云和数据中心。与现有方法不同，我们的方法可以隐含地适应动态分配机器所带来的延迟变化。

Jun, 2021

隐式梯度正则化

本文研究了梯度下降算法在优化神经网络时的表现，发现梯度下降中的离散步骤隐含地通过惩罚大损失梯度轨迹的方式实现了模型的正则化，这种 “隐性梯度正则化” 导致梯度下降趋向于平坦的最小值，使解决方案对噪声参数扰动有很好的鲁棒性，这一理论有助于解决过拟合问题。

Sep, 2020

使用逻辑损失训练的宽两层神经网络的梯度下降的隐含偏见

分析了具有同质性激活函数的两层神经网络在无限宽的情况下的训练和泛化行为，并表明在存在低维结构的情况下，梯度流的极限可以完全表征为某些函数空间中的最大间隔分类器，并且具有强的泛化边界，在实践中符合两层神经网络的行为，并证明了其隐式偏差的统计优点。

Feb, 2020