通过模块化线性化注意力提高自回归 NLP 任务的性能

Apr, 2023

通过模块化线性化注意力提高自回归 NLP 任务的性能

Improving Autoregressive NLP Tasks via Modular Linearized Attention

Victor Agostinelli, Lizhong Chen

TL;DR本文提出基于模块化线性化注意力（MLA）的自然语言处理技术，通过结合多种高效的注意力机制，并验证其在自回归任务上显著提升了推理质量和效率。

Abstract

Various natural language processing (NLP) tasks necessitate models that are efficient and small based on their ultimate application at the edge or in other resource-constrained environments. While prior research has reduced the size of these models, increasing computational efficiency

natural language processing efficient models modular linearized attention autoregressive tasks nlp tasks

发现论文，激发创造

当线性注意力遇上自回归解码：朝着更有效和高效的线性化大型语言模型

通过结合线性注意力和推测解码，我们对现有线性注意力方法在自回归大语言模型中的功效进行了全面研究，并引入了一种增强的线性化语言模型，实验证明其在训练和生成过程中比先前的线性注意力方法更有效率。

Jun, 2024

Transformer 模型的轻松注意力

本文通过实验表明，构建基于 relaxed attention 的 transformer 架构，可以通过抑制自动回归 transformer 解码器的内部语言模型，实现有效地整合外部语言模型，并且提高了通用 transformer 架构的正则化能力。

Sep, 2022

注意力多层感知器用于非自回归生成

提出了一种具有线性时间和空间复杂度的新型多层感知机（AMLP）来解决非自回归生成模型中的二次复杂度问题，并通过在文本转语音合成和机器翻译任务中的实验证明，AMLP 与 NAR 模型的结合在效率上明显优于竞争模型。

Oct, 2023

Small-E：用线性注意力实现高效语音合成的小型语言模型

最近关于文本到语音合成（TTS）的研究表明，使用语言模型驱动的 TTS 展示了卓越的能力，能够实现自然度和零样本声音克隆。本文提出使用新兴递归架构替代变压器，并引入专门的交叉关注机制以减少重复和跳跃问题。结果，我们的架构能够在长音频样本上高效训练，并在相同规模的基准模型上实现最先进的零样本声音克隆。

Jun, 2024

Transformers 是 RNN：具有线性注意力的快速自回归 Transformers

通过使用线性核特征图将自注意力表示为线性点积，并利用矩阵积的结合律特性将复杂性从 O (N^2) 降至 O (N)，我们的线性变压器实现比循环神经网络快 4000 倍，但在自回归预测上达到了与基本变压器类似的性能。

Jun, 2020

高效经济的大型语言模型推理与注意力卸载

通过引入关注点卸载的概念，将昂贵的计算优化加速器与便宜的内存优化设备相结合，以提高大型语言模型的效率和成本效益。我们开发了 Lamina 推理系统，实验证明，相较于同质解决方案，Lamina 可以提供每美元 1.48 倍至 12.1 倍的更高预计吞吐量。

May, 2024

XNOR-FORMER: 长语音 Transformer 准确近似学习

本研究开发出一种新型的线性变压器，通过检验自我关注中关键查询产品的特性，发现其在语音识别和语音摘要方面优于现有的方法。

Oct, 2022

带前瞻注意力的自回归建模

本文介绍了一种新颖的基于 Transformer 的自回归架构，通过根据某些提议分布外推过去的多个连续部分来估计下一个令牌的分布，并关注这些扩展字符串，以改进自回归模型的性能。

May, 2023

Linformer: 线性复杂度的自注意力

本文提出了一种新的自注意力机制 ——Linformer，该机制通过近似自注意力矩阵，将自注意力机制的时间和空间复杂度从 O (n^2) 降低为 O (n)，从而显著提高了 Transformer 模型的内存和时间效率。

Jun, 2020

机器翻译的并行注意力强制

该研究引入了 attention forcing 的两种扩展来解决离散输出的任务中的挑战，包括 scheduled attention forcing 来自动开启和关闭 attention forcing，以及 parallel attention forcing 使训练并行化。实验结果表明，这些方法可以提高基于 RNN 和 Transformer 的模型的性能。

Nov, 2022