Transformer 的好处：在无结构数据的线性回归任务中的上下文学习

Feb, 2024

Transformer 的好处：在无结构数据的线性回归任务中的上下文学习

Benefits of Transformer: In-Context Learning in Linear Regression Tasks with Unstructured Data

Yue Xing, Xiaofeng Lin, Namjoon Suh, Qifan Song, Guang Cheng

TL;DR通过进行线性回归任务的实验，研究了 transformer 结构的优势，并提供了相应的理论直觉来解释 transformer 如何从非结构化数据中进行上下文学习。特别是观察到：（1）具有两层 softmax (self-) attention 和前瞻性注意力掩码的 transformer 可以从提示中进行学习；（2）位置编码可以进一步提高性能；（3）具有较高输入嵌入维度的多头注意力优于单头注意力。

Abstract

In practice, it is observed that transformer-based models can learn concepts in context in the inference stage. While existing literature, e.g., \citet{zhang2023trained,huang2023context}, provide theoretical explanations on this →

transformer-based models in-context learning unstructured data linear regression tasks multi-head attention

发现论文，激发创造

上下文收敛的 Transformer 模型

通过梯度下降训练的具有 softmax 注意力机制的单层 transformer 在学习线性函数类的上下文学习动态方面取得了进展，并对平衡和不平衡特征数据进行了分析，证明了其收敛性和预测误差。

Oct, 2023

线性变换器是多功能的上下文学习器

线性 Transformer 能隐式地执行梯度下降算法和找到优化策略。

Feb, 2024

多头注意力在上下文线性回归中的优势

我们在研究中心比较了 transformer 中 softmax attention 在上下文学习和线性回归任务中的性能，理论分析表明具有较大嵌入维度的多头注意力优于单头注意力，当上下文示例的数量增加时，使用单头 / 多头注意力的预测损失为 O (1/D)，而多头注意力的乘法常数较小。此外，在最简单的数据分布设置之外，我们还考虑了更多的场景，如噪声标签、本地示例、相关特征和先验知识，观察到一般情况下多头注意力优于单头注意力，我们的结果验证了 transformer 架构中多头注意力设计的有效性。

Jan, 2024

深入探究上下文学习在分布偏移下的应用

通过在不断变化的数据分布下比较转换器和基于集合的 Multi-Layer 感知机的表现，研究了上下文学习的一些普遍限制，发现转换器模型更准确地模拟了最小二乘法的性能，并且对于轻微的分布移位更具有鲁棒性，但在严重分布移位的情况下，两个模型的上下文学习能力都会减弱。

May, 2023

线性注意力下上下文学习的渐近理论

Transformers 在无需显式先前训练的情况下，基于输入示例学习和执行任务的能力，也称为上下文学习（ICL），是其成功的基础。本研究提供了关于所需样本复杂性、预训练任务多样性和上下文长度对成功 ICL 的明确答案，采用线性关注在 ICL 线性回归任务的可解模型中推导出了学习曲线的锐利渐近线。通过实验证明了随着先前训练示例数量增加，学习曲线具有双峰，且模型的行为在低和高任务多样性之间出现相变：在低多样性情况下，模型趋向于记忆训练任务，而在高多样性情况下，它实现了真正的上下文学习并在预训练任务范围之外进行泛化。这些理论洞见通过线性关注和完全非线性 Transformer 架构的实验进行了经验证实。

May, 2024

上下文学习与权重移动对 softmax 回归的紧密性

本文针对 Transformer 注意机制进行研究，基于 softmax 回归建模，研究了单个自注意力层诱导数据转换的上限，并通过梯度下降训练 self-attention-only Transformers 来学习基本回归任务，发现梯度下降和 Transformers 所学的模型具有很大的相似性。

Apr, 2023

训练的 Transformer 学习上下文中的线性模型

研究注意力机制的神经网络 transformer 采用渐变流进行单个线性自注意层的训练，实现在新的预测任务中使用标记示例的测试提示时具有预测误差与测试提示分布上最佳线性预测器相竞争的能力，且在多种分布转换下具有鲁棒性。

Jun, 2023

变换器在语境中能学到什么？简单函数类的案例研究

该文提出一种新的模型训练方法，称为 in-context learning，可以使 transformer 模型通过给定的输入输出对，学习出新的输入对应的输出，而无需更新参数。研究者们在极小的数据集上训练模型进行线性函数的 in-context learning，发现该模型即使出现了数据分布的改变，也能够对复杂函数进行有效和快速的学习。

Aug, 2022

通过贝叶斯透镜进行上下文学习

本文通过多种线性和非线性函数类的实证观察，延伸了之前的研究，表明了 transformers 的理想学习者表现，并探究了其在 Bayesian 模型和多任务环境下的应用，还以傅里叶级数为例研究了其归纳偏差。

Jun, 2023

什么是上下文学习算法？线性模型的研究调查

本文通过三类证据说明了基于 transformers 的 in-context learners 在其激活中编码了较小的模型，并更新这些隐式模型为更加精确的预测器；而且，这些学习器学习算法的特征与最佳实践算法相似，这意味着 in-context learners 可以发现标准的估计算法，如梯度下降，闭式 Ridge 回归和最小二乘回归，实验结果验证了这个假设。

Nov, 2022