带前瞻注意力的自回归建模
大型语言模型在逻辑和数学推理方面显示出令人瞩目的能力,使它们能够解决复杂的任务。本文提出了一个理论框架来研究自回归的下一个标记预测器。我们证明,即使是简单的模型,如线性的下一个标记预测器在 Chain-of-Thought(CoT)数据上训练,也能有效地近似于图灵机计算的任何函数。我们引入了一个新的复杂度度量方法 —— 长度复杂度,它衡量了实现某个目标函数所需的 CoT 序列中的中间标记数,并分析了长度复杂度与其他复杂度概念之间的相互关系。最后,我们通过实验证明,简单的下一个标记预测器,如线性网络和浅层多层感知器(MLP),在文本生成和算术任务中显示出非平凡的性能。我们的结果表明,语言模型的强大能力很大程度上归功于自回归的下一个标记训练方案,而不一定取决于特定的架构选择。
Sep, 2023
基于 Transformer 模型的研究探讨其训练和预测过程中生成下一个 token 的方式,同时研究了正交矩阵和位置编码对于模型性能的影响。
Feb, 2024
本文介绍了一种名为 LaMemo 的模型,它通过增量地注意右侧的标记,并与旧的内存状态插值,以维护历史上的长期信息,它将双向注意力和段重复与附加计算开销相结合,只与内存长度成线性比例关系。实验表明 LaMemo 在广泛使用的语言建模基准测试中优于其他不同类型的内存装备。
Apr, 2022
本文提出基于模块化线性化注意力(MLA)的自然语言处理技术,通过结合多种高效的注意力机制,并验证其在自回归任务上显著提升了推理质量和效率。
Apr, 2023
提出了一种全新的基于注意力机制的动作预测模型,称为 Future Transformer (FUTR),它能够学习全局的视频动作信息,以预测长达数分钟的未来动作序列,和传统的自回归模型相比,FUTR 可以更准确、更快速地进行长期预测。在两个标准数据集 Breakfast 和 50Salads 上进行了实验,FUTR 模型取得了最新的最优结果。
May, 2022
本文提出了一种基于预训练生成式 transformer 网络的方法 Future Sight,以实现未来条件限制的故事生成任务,在保留自注意机制的同时,增加了对未来情节的建模,使生成内容更有逻辑性和连贯性。
Dec, 2022
自我注意力机制通过梯度下降训练能够学习自动生成下一个标记符号的自动机,其中学习步骤分为硬检索和软组合,梯度下降隐式地发现强连接组件并选择高优先级组件,以加工序列数据。
Mar, 2024
通过结合线性注意力和推测解码,我们对现有线性注意力方法在自回归大语言模型中的功效进行了全面研究,并引入了一种增强的线性化语言模型,实验证明其在训练和生成过程中比先前的线性注意力方法更有效率。
Jun, 2024
通过模型中的 autoregressive inference 和 teacher-forced training 两个关键阶段的独立处理来解决关于 next-token 预测的问题,研究揭示了在特定类的任务中,teacher-forcing 不仅可能在 autoregressive inference 阶段出现错误叠加的问题,还可能在首次学习过程中就无法准确预测下一个 token 的问题。研究通过实验证明了这一问题,并提出通过预测多个 token 来解决这一失败情况的初步证据。这一发现希望能够引发关于 next-token 预测范式之外的讨论和探索。
Mar, 2024