Transformers 学会使用预条件的梯度下降进行上下文学习

Jun, 2023

Transformers 学会使用预条件的梯度下降进行上下文学习

Transformers learn to implement preconditioned gradient descent for in-context learning

Kwangjun Ahn, Xiang Cheng, Hadi Daneshmand, Suvrit Sra

TL;DR通过线性变压器在随机线性回归实例中的全局最小值，我们证明了经过训练的线性变压器的单个关注层实现了预处理的梯度下降的单个迭代，并证明了训练目标的某些临界点实现了 k 次预处理的梯度下降。

Abstract

Motivated by the striking ability of transformers for in-context learning, several works demonstrate that transformers can implement algorithms like →

transformers gradient descent attention layers preconditioned gradient descent loss landscape

发现论文，激发创造

线性变换器是多功能的上下文学习器

线性 Transformer 能隐式地执行梯度下降算法和找到优化策略。

Feb, 2024

梯度下降的一步证明了在上下文中具有一层线性自注意力的最优学习者

使用线性自注意力的一层 Transformer 在合成的线性回归数据上进行预训练，表明通过最小化预训练损失可以实现最小二乘线性回归目标的梯度下降的单步操作。

Jul, 2023

基于 Transformer 的线性模型上下文学习中的高阶优化方法研究

Transformers 使用高阶优化方法（如迭代牛顿法）实现了上下文学习（即从示例中学习而无需参数更新），并且与梯度下降相比具有相当的收敛速度，同时在条件良好和条件差的数据上都能成功进行上下文学习。

Oct, 2023

使用 Transformer 实现功能梯度下降来学习上下文中的非线性函数

很多神经网络架构都被证明是图灵完备的，然而，变压器在简单参数配置下能够实现基于梯度的学习算法，包括非线性激活函数情景下学习非线性函数的理论和实证研究。

Dec, 2023

基于梯度下降的 Transformer 网络学习因果结构

通过梯度下降优化算法，变压器模型通过自注意机制在第一个注意力层中编码潜在的因果图，从而学习了因果结构。

Feb, 2024

上下文收敛的 Transformer 模型

通过梯度下降训练的具有 softmax 注意力机制的单层 transformer 在学习线性函数类的上下文学习动态方面取得了进展，并对平衡和不平衡特征数据进行了分析，证明了其收敛性和预测误差。

Oct, 2023

Transformer 对于上下文中的牛顿法能模拟多好？

利用线性注意力变换器实现逻辑回归的二阶优化算法，并仅需要对数层数量的误差即可实现 epsilon 误差。

Mar, 2024

训练的 Transformer 学习上下文中的线性模型

研究注意力机制的神经网络 transformer 采用渐变流进行单个线性自注意层的训练，实现在新的预测任务中使用标记示例的测试提示时具有预测误差与测试提示分布上最佳线性预测器相竞争的能力，且在多种分布转换下具有鲁棒性。

Jun, 2023

什么是上下文学习算法？线性模型的研究调查

本文通过三类证据说明了基于 transformers 的 in-context learners 在其激活中编码了较小的模型，并更新这些隐式模型为更加精确的预测器；而且，这些学习器学习算法的特征与最佳实践算法相似，这意味着 in-context learners 可以发现标准的估计算法，如梯度下降，闭式 Ridge 回归和最小二乘回归，实验结果验证了这个假设。

Nov, 2022

线性注意力下上下文学习的渐近理论

Transformers 在无需显式先前训练的情况下，基于输入示例学习和执行任务的能力，也称为上下文学习（ICL），是其成功的基础。本研究提供了关于所需样本复杂性、预训练任务多样性和上下文长度对成功 ICL 的明确答案，采用线性关注在 ICL 线性回归任务的可解模型中推导出了学习曲线的锐利渐近线。通过实验证明了随着先前训练示例数量增加，学习曲线具有双峰，且模型的行为在低和高任务多样性之间出现相变：在低多样性情况下，模型趋向于记忆训练任务，而在高多样性情况下，它实现了真正的上下文学习并在预训练任务范围之外进行泛化。这些理论洞见通过线性关注和完全非线性 Transformer 架构的实验进行了经验证实。

May, 2024