Transformer 模型在上下文自回归学习中的性能表现

Feb, 2024

Transformer 模型在上下文自回归学习中的性能表现

How do Transformers perform In-Context Autoregressive Learning?

Michael E. Sander, Raja Giryes, Taiji Suzuki, Mathieu Blondel, Gabriel Peyré

TL;DR基于 Transformer 模型的研究探讨其训练和预测过程中生成下一个 token 的方式，同时研究了正交矩阵和位置编码对于模型性能的影响。

Abstract

transformers have achieved state-of-the-art performance in language modeling tasks. However, the reasons behind their tremendous success are still unclear. In this paper, towards a better understanding, we train

transformers language modeling next token prediction autoregressive learning orthogonal matrices

发现论文，激发创造

自回归训练的变压器中的 Mesa - 优化：出现和能力

最近的研究表明，自回归训练的 Transformer 学习了一个内在的优化器，通过正向传播来优化一个内部目标函数，我们探索了一个通过梯度流进行自回归训练的一层线性因果自注意模型的非凸动力学，以填补该领域的知识空白，并验证了该模型能够实现内在学习能力和优化器假设。

May, 2024

训练的 Transformer 学习上下文中的线性模型

研究注意力机制的神经网络 transformer 采用渐变流进行单个线性自注意层的训练，实现在新的预测任务中使用标记示例的测试提示时具有预测误差与测试提示分布上最佳线性预测器相竞争的能力，且在多种分布转换下具有鲁棒性。

Jun, 2023

自回归下一个单词预测器是通用学习者

大型语言模型在逻辑和数学推理方面显示出令人瞩目的能力，使它们能够解决复杂的任务。本文提出了一个理论框架来研究自回归的下一个标记预测器。我们证明，即使是简单的模型，如线性的下一个标记预测器在 Chain-of-Thought（CoT）数据上训练，也能有效地近似于图灵机计算的任何函数。我们引入了一个新的复杂度度量方法 —— 长度复杂度，它衡量了实现某个目标函数所需的 CoT 序列中的中间标记数，并分析了长度复杂度与其他复杂度概念之间的相互关系。最后，我们通过实验证明，简单的下一个标记预测器，如线性网络和浅层多层感知器（MLP），在文本生成和算术任务中显示出非平凡的性能。我们的结果表明，语言模型的强大能力很大程度上归功于自回归的下一个标记训练方案，而不一定取决于特定的架构选择。

Sep, 2023

上下文收敛的 Transformer 模型

通过梯度下降训练的具有 softmax 注意力机制的单层 transformer 在学习线性函数类的上下文学习动态方面取得了进展，并对平衡和不平衡特征数据进行了分析，证明了其收敛性和预测误差。

Oct, 2023

线性变换器是多功能的上下文学习器

线性 Transformer 能隐式地执行梯度下降算法和找到优化策略。

Feb, 2024

Transformers 是 RNN：具有线性注意力的快速自回归 Transformers

通过使用线性核特征图将自注意力表示为线性点积，并利用矩阵积的结合律特性将复杂性从 O (N^2) 降至 O (N)，我们的线性变压器实现比循环神经网络快 4000 倍，但在自回归预测上达到了与基本变压器类似的性能。

Jun, 2020

深度转换器语言建模

本文研究了基于深度自回归 Transformer 模型在语言建模和语音识别中的应用，探索了配置 Transformer 模型进行语言建模的方法和深度 Transformer 语言模型是否需要位置编码，证明了深度 Transformer 语言模型可以自动利用序列中的位置信息，并能在语音识别模型中得到应用。

May, 2019

Transformer 对于上下文中的牛顿法能模拟多好？

利用线性注意力变换器实现逻辑回归的二阶优化算法，并仅需要对数层数量的误差即可实现 epsilon 误差。

Mar, 2024

自回归语言模型隐藏状态的令牌分解分析模型预测

本研究提出了对于近现代 Transformer 架构的自回归语言模型的一种准确的每个初始输入 token 的线性分解，并使用其定义概率分布，以分离出特定的输入 token 对于后续单词序列的影响；回归实验表明，基于 Transformer 的语言模型主要依赖于搭配的联想，其次是基于语言学素材的综合推断，例如句法依赖关系和指代关系，以确定下一个单词的概率。

May, 2023

带前瞻注意力的自回归建模

本文介绍了一种新颖的基于 Transformer 的自回归架构，通过根据某些提议分布外推过去的多个连续部分来估计下一个令牌的分布，并关注这些扩展字符串，以改进自回归模型的性能。

May, 2023