长度自适应 Transformer: 一次训练，随时使用，避免长度限制和搜索

ACLOct, 2020

长度自适应 Transformer: 一次训练，随时使用，避免长度限制和搜索

Length-Adaptive Transformer: Train Once with Length Drop, Use Anytime with Search

Gyuwan Kim, Kyunghyun Cho

TL;DR本论文中提出了一种名为 Length-Adaptive Transformer 的方法，通过使用结构变体 dropout（LengthDrop）在一个转换器上一次训练即可在各种推理场景下使用，并使用多目标进化搜索查找在任何给定计算预算下最大化准确性和最小化效率度量的长度配置。此外，还通过 Drop-and-Restore 过程将 PoWER-BERT 的适用范围显着扩展到单词级分类中。该方法在各种设置下都展现了卓越的准确性和效率平衡性能。

Abstract

Despite transformers' impressive accuracy, their computational cost is often prohibitive to use with limited computational resources. Most previous approaches to improve inference efficiency require a separate mo

transformers inference efficiency length-adaptive transformer multi-objective evolutionary search accuracy-efficiency trade-off

发现论文，激发创造

AdapLeR: 自适应长度缩减加速推理

本文提出了一种基于 salience 方法的计算成本降低技术，具体来说，是通过动态消除 BERT 模型中的无用 tokens 以降低计算成本，在几个不同的分类任务中验证其性能，实现了高达 22 倍的加速。

Mar, 2022

结构化丢弃降低 Transformer 深度

本文介绍了一种新的结构化 dropout 形式 ——LayerDrop，该形式可在训练过程中实现正则化效果，在推理时允许有效的剪枝。作者通过实验证明了该方法对机器翻译、语言模型、文本摘要、问答和语言理解等基准测试的提升，并提出使用该方法可以得到更高质量的类 BERT 模型。

Sep, 2019

自适应深度变压器

本文介绍了一种 Transformer 模型，它可以在网络的不同阶段进行输出预测，并调整每个步骤所应用的不同图层，以调整计算量和模型容量。通过对 IWSLT 德英翻译的实验，我们的方法与 well tuned 换基础变压器的精度相匹配，同时只使用不到四分之一的解码器层数。

Oct, 2019

Transformer 模型可以实现长度概括，但不具备鲁棒性

使用适当的数据格式和位置编码的组合，本研究首次展示了标准 Transformers 在能够外推到输入长度 2.5 倍的序列长度方面的成功，然而与内分布泛化不同，长度泛化仍然是脆弱的，受到随机权重初始化和训练数据顺序等因素的显著影响，导致不同随机种子之间存在较大差异。

Feb, 2024

QuaLA-MiniLM：一种量化长度自适应 MiniLM 模型

使用 Length Adaptive Transformer 和 MiniLM distillation 加上低位量化技术，我们设计出一个高效的模型 QuaLA-MiniLM，在 SQuAD1.1 数据集上达到 x8.8 个速度提升且不到 1% 的精度损失。

Oct, 2022

LongNet: 将 Transformer 扩展到 10 亿个标记

LongNet 是 Transformer 的一种变体，引入了扩张注意力（dilated attention）来扩展序列长度，使其能够处理超过 10 亿个标记的序列，同时不会牺牲短序列的性能表现。

Jul, 2023

线性时间中的 Transformer 质量

本文提出使用门控注意力单元和线性近似方法改良 Transformers 模型的方法，新模型命名为 FLASH。该模型在短序列和长序列上都达到了改良 Transformers 的分词结果，同时在 Wiki-40B 和 PG-19 的自回归语言模型上训练速度最多提升了 4.9 倍，在掩蔽语言模型上提升了 4.8 倍。

Feb, 2022

适应性记号长度的视觉变换器：将长图像变短

通过 Resizable-ViT 模型和 Token-Length Assigner 方法，在保证准确性的前提下，为每个图像分配最小的适当的 token 长度，从而加快 ViT 模型的推理速度，从而显着降低计算成本。

Jul, 2023

深度变换器与潜在深度

本研究提出一种概率框架来自动学习选择哪些层来使用以优化 Transformer 模型的性能，用于训练一种适用于多语言机器翻译的共享 Transformer 网络，缓解梯度消失问题，从而使得深度 Transformer 网络（例如 100 层）稳定训练，并在机器翻译和语言建模任务中实现了更好的性能。

Sep, 2020

带有动态 Token 池化的高效 Transformer

通过动态 Pooling 和自回归机制，使得 Transformer 模型在其计算资源内的表现更快更准确。

Nov, 2022