上下文学习与权重移动对 softmax 回归的紧密性

Apr, 2023

上下文学习与权重移动对 softmax 回归的紧密性

The Closeness of In-Context Learning and Weight Shifting for Softmax Regression

Shuai Li, Zhao Song, Yu Xia, Tong Yu, Tianyi Zhou

TL;DR本文针对 Transformer 注意机制进行研究，基于 softmax 回归建模，研究了单个自注意力层诱导数据转换的上限，并通过梯度下降训练 self-attention-only Transformers 来学习基本回归任务，发现梯度下降和 Transformers 所学的模型具有很大的相似性。

Abstract

large language models (LLMs) are known for their exceptional performance in natural language processing, making them highly effective in many human life-related or even job-related tasks. The attention mechanism

large language models transformer architecture attention mechanism in-context learning softmax regression

发现论文，激发创造

基于 Transformer 的上下文学习：Softmax 注意力适应函数的 Lipschitz 特性

在隐含背景数据的推断过程中，探索了 softmax 注意力机制在回归任务中的作用，发现注意力单元通过学习窗口，可以适应不同的预训练任务，并随着 Lipschitz 性质降低和标签噪声增加而扩大，同时对于低秩线性问题，注意力单元可以在推断之前进行适当的投影。此外，该适应性依赖于 softmax 激活函数，不同于传统线性激活函数的理论分析。

Feb, 2024

基于张量技巧的上下文学习注意力机制：从单个 softmax 回归到多个 softmax 回归

本文介绍了注意力相关回归问题在矩阵形式下的向量化技术及利普希茨分析结果。

Jul, 2023

深入探究上下文学习在分布偏移下的应用

通过在不断变化的数据分布下比较转换器和基于集合的 Multi-Layer 感知机的表现，研究了上下文学习的一些普遍限制，发现转换器模型更准确地模拟了最小二乘法的性能，并且对于轻微的分布移位更具有鲁棒性，但在严重分布移位的情况下，两个模型的上下文学习能力都会减弱。

May, 2023

上下文收敛的 Transformer 模型

通过梯度下降训练的具有 softmax 注意力机制的单层 transformer 在学习线性函数类的上下文学习动态方面取得了进展，并对平衡和不平衡特征数据进行了分析，证明了其收敛性和预测误差。

Oct, 2023

线性注意力下上下文学习的渐近理论

Transformers 在无需显式先前训练的情况下，基于输入示例学习和执行任务的能力，也称为上下文学习（ICL），是其成功的基础。本研究提供了关于所需样本复杂性、预训练任务多样性和上下文长度对成功 ICL 的明确答案，采用线性关注在 ICL 线性回归任务的可解模型中推导出了学习曲线的锐利渐近线。通过实验证明了随着先前训练示例数量增加，学习曲线具有双峰，且模型的行为在低和高任务多样性之间出现相变：在低多样性情况下，模型趋向于记忆训练任务，而在高多样性情况下，它实现了真正的上下文学习并在预训练任务范围之外进行泛化。这些理论洞见通过线性关注和完全非线性 Transformer 架构的实验进行了经验证实。

May, 2024

多头注意力在上下文线性回归中的优势

我们在研究中心比较了 transformer 中 softmax attention 在上下文学习和线性回归任务中的性能，理论分析表明具有较大嵌入维度的多头注意力优于单头注意力，当上下文示例的数量增加时，使用单头 / 多头注意力的预测损失为 O (1/D)，而多头注意力的乘法常数较小。此外，在最简单的数据分布设置之外，我们还考虑了更多的场景，如噪声标签、本地示例、相关特征和先验知识，观察到一般情况下多头注意力优于单头注意力，我们的结果验证了 transformer 架构中多头注意力设计的有效性。

Jan, 2024

基于核回归的大语言模型上下文学习解析

通过研究大型语言模型，本文提出 Large language models 可以在面对语境示例时模拟核回归算法，并证明了在 Context prompts 上的贝叶斯推理可以被当作大样本上的核回归，并通过实证研究发现，LLMs 中的注意力和隐藏特征与核回归的行为相匹配，这些为 ICL 领域中观察到的多种现象提供了见解。

May, 2023

变压器中的注意力 - 相似度关系

我们分析了大型语言模型（LLMs）如何表示上下文之外的单词，研究它们依赖所给上下文来捕捉其语义的情况。我们的文本扰动指导了似然性，揭示了变形器模型中令牌似然性和注意力值之间的相关性。广泛的实验表明，意外的令牌会导致模型不太关注来自自身的信息以计算它们的表示，特别是在较高的层次上。这些发现对于评估 LLMs 在真实世界场景中的鲁棒性具有重要的影响。

Mar, 2023

为什么更大的语言模型在上下文中学习方式不同？

大型语言模型（LLM）通过上下文学习（ICL）的关键能力成为 AI 的强大工具，本研究探讨了不同规模的模型在 ILC 行为上的不同性质，并在两个设定下分析了变压器的注意力机制与 ICL 的关系。

May, 2024

Transformer 的好处：在无结构数据的线性回归任务中的上下文学习

通过进行线性回归任务的实验，研究了 transformer 结构的优势，并提供了相应的理论直觉来解释 transformer 如何从非结构化数据中进行上下文学习。特别是观察到：（1）具有两层 softmax (self-) attention 和前瞻性注意力掩码的 transformer 可以从提示中进行学习；（2）位置编码可以进一步提高性能；（3）具有较高输入嵌入维度的多头注意力优于单头注意力。

Feb, 2024