带长短范围注意力的轻量 Transformer

ICLRApr, 2020

带长短范围注意力的轻量 Transformer

Lite Transformer with Long-Short Range Attention

Zhanghao Wu, Zhijian Liu, Ji Lin, Yujun Lin, Song Han

TL;DR本文提供了一种高效的移动 NLP 架构 —— Lite Transformer，它通过使用 Long-Short Range Attention 来进行本地上下文建模与长距离关系建模的特化，从而在机器翻译、摘要生成和语言建模三个方面均优于 vanilla transformer，并且在受到硬件资源限制的条件下，Lite Transformer 在 WMT'14 英法任务上均优于 Transformer。此外，对该模型进行修剪与量化等操作可以将模型体积进一步压缩 18.2 倍，而在 500M MACs 的计算量下，Lite Transformer 的困惑度比 Transformer 低 1.8。

Abstract

transformer has become ubiquitous in natural language processing (e.g., machine translation, question answering); however, it requires enormous amount of computations to achieve high performance, which makes it not suitable for mobile applications that are tightly constrained by the ha

transformer mobile nlp long-short range attention lsra language modeling

发现论文，激发创造

长短期 Transformer: 语言和视觉的高效 Transformer

提出了一种名为 “长短变压器” 的模型，其中使用自注意力机制处理长文本和高分辨率图像，同时引入了一种新型的远距离关注和短期关注机制，并采用双重归一化策略来处理两种注意力机制之间的规模差异。通过在多个语言和视觉任务中的表现，该方法优于现有的方法。

Jul, 2021

关于 Transformer 模型的长程能力

通过对 Transformer 架构进行最小的修改，引入长距离任务的归纳偏差、位置性等重要特性以提升性能，并为成功捕捉长距离依赖关系确定了关键属性。

Nov, 2023

Transformer-Lite: 在手机 GPU 上高效部署大型语言模型

为了在移动设备上高效部署大型语言模型，我们提出了四种优化技术：基于符号表达式的动态模型推断，操作符优化和执行优先级设置，FP4 量化方法以减少反量化开销，以及基于子张量的技术以消除 LLM 推断后的缓存拷贝需求，并利用这些方法实现了移动推断引擎 Transformer-Lite。与 CPU 和 GPU 的其他引擎相比，我们的引擎在填充速度上实现了超过 10 倍的加速，并在解码速度上实现了 2~3 倍的加速。

Mar, 2024

长程变压器的自然语言处理任务效率

比较研究了多种 Transformer 模型的性能，发现长序列的改进版本在内容选择和查询引导解码方面有优势，但在处理远距离的信息和近似误差上有欠缺的地方。

Feb, 2022

LSG 注意力机制：将预训练的 Transformer 推广到长序列

本研究提出了 LSG attention 机制以解决 Transformer 模型自注意力机制中违反 $O (n^2)$ 的限制，同时还提出了相应工具和方法用于新模型的训练和现有模型的调整。实验结果表明，LSG attention 机制在长文本的分类和摘要任务中效率优秀，也可以用于有效地扩展预训练模型的序列长度。

Oct, 2022

利用低秩变换器实现轻量高效端到端语音识别

本研究提出低秩变压器（LRT）神经网络架构，以实现减少网络参数和提高训练推理速度的目标，进而在端对端语音识别任务上实现更好的泛化性能和更低的错误率。

Oct, 2019

Small-E：用线性注意力实现高效语音合成的小型语言模型

最近关于文本到语音合成（TTS）的研究表明，使用语言模型驱动的 TTS 展示了卓越的能力，能够实现自然度和零样本声音克隆。本文提出使用新兴递归架构替代变压器，并引入专门的交叉关注机制以减少重复和跳跃问题。结果，我们的架构能够在长音频样本上高效训练，并在相同规模的基准模型上实现最先进的零样本声音克隆。

Jun, 2024

TRAMS：无需训练的长程语言模型记忆选择

提出了一种称为 TRAining-free Memory Selection (TRAMS) 的插拔式策略，通过一个简单的评价指标选择参与注意力计算的令牌，从而改善长程语言建模的挑战，无需额外训练或添加参数，通过在 word-level benchmark (WikiText-103) 和 character-level benchmark (enwik8) 上的测试取得了改进的结果。

Oct, 2023

Transformer 模型的轻松注意力

本文通过实验表明，构建基于 relaxed attention 的 transformer 架构，可以通过抑制自动回归 transformer 解码器的内部语言模型，实现有效地整合外部语言模型，并且提高了通用 transformer 架构的正则化能力。

Sep, 2022

长距竞技场：一个高效 Transformer 算法的基准测试

本论文提出了一个系统和统一的基准测试，名为 LRA，专门评估长上下文下的模型质量，其中系统地评估了十个成熟的长范围 Transformer 模型，为更好地理解高效 Transformer 模型铺平了道路，并提出了新的具有挑战性的任务。

Nov, 2020