梯度下降的一步证明了在上下文中具有一层线性自注意力的最优学习者

Jul, 2023

梯度下降的一步证明了在上下文中具有一层线性自注意力的最优学习者

One Step of Gradient Descent is Provably the Optimal In-Context Learner with One Layer of Linear Self-Attention

Arvind Mahankali, Tatsunori B. Hashimoto, Tengyu Ma

TL;DR使用线性自注意力的一层 Transformer 在合成的线性回归数据上进行预训练，表明通过最小化预训练损失可以实现最小二乘线性回归目标的梯度下降的单步操作。

Abstract

Recent works have empirically analyzed in-context learning and shown that transformers trained on synthetic linear regression tasks can learn to implement →

transformers linear regression ridge regression gradient descent pre-training loss

发现论文，激发创造

Transformers 学会使用预条件的梯度下降进行上下文学习

通过线性变压器在随机线性回归实例中的全局最小值，我们证明了经过训练的线性变压器的单个关注层实现了预处理的梯度下降的单个迭代，并证明了训练目标的某些临界点实现了 k 次预处理的梯度下降。

Jun, 2023

线性变换器是多功能的上下文学习器

线性 Transformer 能隐式地执行梯度下降算法和找到优化策略。

Feb, 2024

训练的 Transformer 学习上下文中的线性模型

研究注意力机制的神经网络 transformer 采用渐变流进行单个线性自注意层的训练，实现在新的预测任务中使用标记示例的测试提示时具有预测误差与测试提示分布上最佳线性预测器相竞争的能力，且在多种分布转换下具有鲁棒性。

Jun, 2023

线性回归的上下文学习需要多少预训练任务？

在这篇论文中，我们研究了通过预训练线性参数化的单层线性注意力模型进行具有高斯先验的线性回归的上下文学习（ICL），在一个最简单的设置中进行 ICL 研究。我们建立了注意力模型预训练的统计任务复杂性界限，证明了有效的预训练只需要少量独立任务。此外，我们证明了预训练模型与贝叶斯最优算法高度匹配，即在固定上下文长度下，在未见任务上实现几乎贝叶斯最优风险。这些理论发现补充了先前的实验研究，并阐明了 ICL 的统计基础。

Oct, 2023

线性变换器块中上下文学习的好处：MLP 组件和一步梯度下降初始化

研究了线性变换器块（LTB）的上下文学习（ICL）能力，证明了 LTB 可以实现几乎贝叶斯最优的 ICL 风险，并且通过多层感知器（MLP）层减小了近似误差。

Feb, 2024

基于 Transformer 的线性模型上下文学习中的高阶优化方法研究

Transformers 使用高阶优化方法（如迭代牛顿法）实现了上下文学习（即从示例中学习而无需参数更新），并且与梯度下降相比具有相当的收敛速度，同时在条件良好和条件差的数据上都能成功进行上下文学习。

Oct, 2023

自注意力的隐性偏见和快速收敛速率

通过对自注意力机制进行梯度下降的隐式偏差研究，我们在二进制分类中的固定线性解码器上训练自注意力层，证明了全局收敛并量化了关注图的稀疏化速率，同时分析了自适应步长规则对自注意力收敛速度的加速效果，从而进一步加强了自注意力的隐式偏差视角并强化了其与线性逻辑回归中的隐式偏差的联系。

Feb, 2024

自回归训练的变压器中的 Mesa - 优化：出现和能力

最近的研究表明，自回归训练的 Transformer 学习了一个内在的优化器，通过正向传播来优化一个内部目标函数，我们探索了一个通过梯度流进行自回归训练的一层线性因果自注意模型的非凸动力学，以填补该领域的知识空白，并验证了该模型能够实现内在学习能力和优化器假设。

May, 2024

上下文收敛的 Transformer 模型

通过梯度下降训练的具有 softmax 注意力机制的单层 transformer 在学习线性函数类的上下文学习动态方面取得了进展，并对平衡和不平衡特征数据进行了分析，证明了其收敛性和预测误差。

Oct, 2023

基于梯度下降的 Transformer 网络学习因果结构

通过梯度下降优化算法，变压器模型通过自注意机制在第一个注意力层中编码潜在的因果图，从而学习了因果结构。

Feb, 2024