线性变换器是多功能的上下文学习器

Feb, 2024

线性变换器是多功能的上下文学习器

Linear Transformers are Versatile In-Context Learners

Max Vladymyrov, Johannes von Oswald, Mark Sandler, Rong Ge

TL;DR线性 Transformer 能隐式地执行梯度下降算法和找到优化策略。

Abstract

Recent research has demonstrated that transformers, particularly linear attention models, implicitly execute gradient-descent-like algorithms on data provided in-context during their forward inference step. However, their capability in handling more complex problems remains unexplored.

transformers linear attention models gradient descent preconditioned gradient descent optimization strategies

发现论文，激发创造

训练的 Transformer 学习上下文中的线性模型

研究注意力机制的神经网络 transformer 采用渐变流进行单个线性自注意层的训练，实现在新的预测任务中使用标记示例的测试提示时具有预测误差与测试提示分布上最佳线性预测器相竞争的能力，且在多种分布转换下具有鲁棒性。

Jun, 2023

Transformers 学会使用预条件的梯度下降进行上下文学习

通过线性变压器在随机线性回归实例中的全局最小值，我们证明了经过训练的线性变压器的单个关注层实现了预处理的梯度下降的单个迭代，并证明了训练目标的某些临界点实现了 k 次预处理的梯度下降。

Jun, 2023

什么是上下文学习算法？线性模型的研究调查

本文通过三类证据说明了基于 transformers 的 in-context learners 在其激活中编码了较小的模型，并更新这些隐式模型为更加精确的预测器；而且，这些学习器学习算法的特征与最佳实践算法相似，这意味着 in-context learners 可以发现标准的估计算法，如梯度下降，闭式 Ridge 回归和最小二乘回归，实验结果验证了这个假设。

Nov, 2022

上下文收敛的 Transformer 模型

通过梯度下降训练的具有 softmax 注意力机制的单层 transformer 在学习线性函数类的上下文学习动态方面取得了进展，并对平衡和不平衡特征数据进行了分析，证明了其收敛性和预测误差。

Oct, 2023

基于 Transformer 的线性模型上下文学习中的高阶优化方法研究

Transformers 使用高阶优化方法（如迭代牛顿法）实现了上下文学习（即从示例中学习而无需参数更新），并且与梯度下降相比具有相当的收敛速度，同时在条件良好和条件差的数据上都能成功进行上下文学习。

Oct, 2023

使用 Transformer 实现功能梯度下降来学习上下文中的非线性函数

很多神经网络架构都被证明是图灵完备的，然而，变压器在简单参数配置下能够实现基于梯度的学习算法，包括非线性激活函数情景下学习非线性函数的理论和实证研究。

Dec, 2023

线性注意力或许是你所需的全部（理解 Transformer 优化的）

通过对线性化浅层 transformer 模型的研究，我们对 transformer 训练的复杂性有了更深入的了解，并观察到线性化模型能够重现 transformer 训练动态的几个重要方面，因此，本文的结果表明简单的线性化 transformer 模型实际上能够是理解 transformer 优化的有价值的现实抽象。

Oct, 2023

Transformer 对于上下文中的牛顿法能模拟多好？

利用线性注意力变换器实现逻辑回归的二阶优化算法，并仅需要对数层数量的误差即可实现 epsilon 误差。

Mar, 2024

线性注意力下上下文学习的渐近理论

Transformers 在无需显式先前训练的情况下，基于输入示例学习和执行任务的能力，也称为上下文学习（ICL），是其成功的基础。本研究提供了关于所需样本复杂性、预训练任务多样性和上下文长度对成功 ICL 的明确答案，采用线性关注在 ICL 线性回归任务的可解模型中推导出了学习曲线的锐利渐近线。通过实验证明了随着先前训练示例数量增加，学习曲线具有双峰，且模型的行为在低和高任务多样性之间出现相变：在低多样性情况下，模型趋向于记忆训练任务，而在高多样性情况下，它实现了真正的上下文学习并在预训练任务范围之外进行泛化。这些理论洞见通过线性关注和完全非线性 Transformer 架构的实验进行了经验证实。

May, 2024

Transformer 的好处：在无结构数据的线性回归任务中的上下文学习

通过进行线性回归任务的实验，研究了 transformer 结构的优势，并提供了相应的理论直觉来解释 transformer 如何从非结构化数据中进行上下文学习。特别是观察到：（1）具有两层 softmax (self-) attention 和前瞻性注意力掩码的 transformer 可以从提示中进行学习；（2）位置编码可以进一步提高性能；（3）具有较高输入嵌入维度的多头注意力优于单头注意力。

Feb, 2024