带前瞻注意力的自回归建模

May, 2023

Autoregressive Modeling with Lookahead Attention

Li Du, Hongyuan Mei, Jason Eisner

TL;DR本文介绍了一种新颖的基于 Transformer 的自回归架构，通过根据某些提议分布外推过去的多个连续部分来估计下一个令牌的分布，并关注这些扩展字符串，以改进自回归模型的性能。

Abstract

To predict the next token, autoregressive models ordinarily examine the past. Could they also benefit from also examining hypothetical futures? We consider a novel Transformer-based autoregressive architecture that estimates the next-token distribution by →

autoregressive models transformer-based architecture extrapolating future trajectories lookahead model

发现论文，激发创造

自回归下一个单词预测器是通用学习者

大型语言模型在逻辑和数学推理方面显示出令人瞩目的能力，使它们能够解决复杂的任务。本文提出了一个理论框架来研究自回归的下一个标记预测器。我们证明，即使是简单的模型，如线性的下一个标记预测器在 Chain-of-Thought（CoT）数据上训练，也能有效地近似于图灵机计算的任何函数。我们引入了一个新的复杂度度量方法 —— 长度复杂度，它衡量了实现某个目标函数所需的 CoT 序列中的中间标记数，并分析了长度复杂度与其他复杂度概念之间的相互关系。最后，我们通过实验证明，简单的下一个标记预测器，如线性网络和浅层多层感知器（MLP），在文本生成和算术任务中显示出非平凡的性能。我们的结果表明，语言模型的强大能力很大程度上归功于自回归的下一个标记训练方案，而不一定取决于特定的架构选择。

Sep, 2023

Transformer 模型在上下文自回归学习中的性能表现

基于 Transformer 模型的研究探讨其训练和预测过程中生成下一个 token 的方式，同时研究了正交矩阵和位置编码对于模型性能的影响。

Feb, 2024

LaMemo: 带向前存储的语言建模

本文介绍了一种名为 LaMemo 的模型，它通过增量地注意右侧的标记，并与旧的内存状态插值，以维护历史上的长期信息，它将双向注意力和段重复与附加计算开销相结合，只与内存长度成线性比例关系。实验表明 LaMemo 在广泛使用的语言建模基准测试中优于其他不同类型的内存装备。

Apr, 2022

通过模块化线性化注意力提高自回归 NLP 任务的性能

本文提出基于模块化线性化注意力（MLA）的自然语言处理技术，通过结合多种高效的注意力机制，并验证其在自回归任务上显著提升了推理质量和效率。

Apr, 2023

未来的 Transformer 用于长期行动预测

提出了一种全新的基于注意力机制的动作预测模型，称为 Future Transformer (FUTR)，它能够学习全局的视频动作信息，以预测长达数分钟的未来动作序列，和传统的自回归模型相比，FUTR 可以更准确、更快速地进行长期预测。在两个标准数据集 Breakfast 和 50Salads 上进行了实验，FUTR 模型取得了最新的最优结果。

May, 2022

未来视角：利用大型预训练语言模型进行动态故事生成

本文提出了一种基于预训练生成式 transformer 网络的方法 Future Sight，以实现未来条件限制的故事生成任务，在保留自注意机制的同时，增加了对未来情节的建模，使生成内容更有逻辑性和连贯性。

Dec, 2022

自注意力机制下的下一个标记预测机制

自我注意力机制通过梯度下降训练能够学习自动生成下一个标记符号的自动机，其中学习步骤分为硬检索和软组合，梯度下降隐式地发现强连接组件并选择高优先级组件，以加工序列数据。

Mar, 2024

突破注意力瓶颈

通过开发一种生成函数来解决基于关注机制的注意力变量效率低的问题，该方法在处理变长输入序列和建模长程依赖方面具有更小的模型和更小的损失。

Jun, 2024

当线性注意力遇上自回归解码：朝着更有效和高效的线性化大型语言模型

通过结合线性注意力和推测解码，我们对现有线性注意力方法在自回归大语言模型中的功效进行了全面研究，并引入了一种增强的线性化语言模型，实验证明其在训练和生成过程中比先前的线性注意力方法更有效率。

Jun, 2024

下一个标记预测的陷阱

通过模型中的 autoregressive inference 和 teacher-forced training 两个关键阶段的独立处理来解决关于 next-token 预测的问题，研究揭示了在特定类的任务中，teacher-forcing 不仅可能在 autoregressive inference 阶段出现错误叠加的问题，还可能在首次学习过程中就无法准确预测下一个 token 的问题。研究通过实验证明了这一问题，并提出通过预测多个 token 来解决这一失败情况的初步证据。这一发现希望能够引发关于 next-token 预测范式之外的讨论和探索。

Mar, 2024