自适应深度变压器

ICLROct, 2019

Depth-Adaptive Transformer

Maha Elbayad, Jiatao Gu, Edouard Grave, Michael Auli

TL;DR本文介绍了一种 Transformer 模型，它可以在网络的不同阶段进行输出预测，并调整每个步骤所应用的不同图层，以调整计算量和模型容量。通过对 IWSLT 德英翻译的实验，我们的方法与 well tuned 换基础变压器的精度相匹配，同时只使用不到四分之一的解码器层数。

Abstract

State of the art sequence-to-sequence models for large scale tasks perform a fixed number of computations for each input sequence regardless of whether it is easy or hard to process. In this paper, we train transformer

transformer models sequence-to-sequence models computation iwslt german-english translation model capacity

发现论文，激发创造

深度变换器与潜在深度

本研究提出一种概率框架来自动学习选择哪些层来使用以优化 Transformer 模型的性能，用于训练一种适用于多语言机器翻译的共享 Transformer 网络，缓解梯度消失问题，从而使得深度 Transformer 网络（例如 100 层）稳定训练，并在机器翻译和语言建模任务中实现了更好的性能。

Sep, 2020

快速深度自适应变压器

本文提出基于互信息和重构误差两种方法来测量输入词语的难度和估计相应的自适应深度，从而摆脱判停单元，并提高深度自适应模型的速度和稳定性。实验证明，该方法能够在保持高准确性的同时，加快原始 Transformer 速度（高达 7 倍），并提高效率和鲁棒性，相对于其他深度自适应方法具有显著优势。

Apr, 2020

机器翻译加权变形器网络

本篇论文提出基于注意力机制的神经机器翻译新架构，采用自注意力和前馈神经网络层来避免递归和卷积，但是需要大量的参数和训练才能收敛。同时又提出了加权 Transformer 模型，通过修改注意力层架构，更快地提高 BLEU 得分表现，同时在英译德和英译法机器翻译任务中表现最优。

Nov, 2017

混合深度：在基于 Transformer 的语言模型中动态分配计算资源

本文通过动态分配计算资源到序列的特定位置，优化了模型深度中不同层级的计算分配，从而实现了对计算资源的灵活分配和预测性控制。这种方法在保持总计算预算的同时，能够以非均匀的方式在时间和模型深度维度上高效地分配计算资源，并且以相当于基准性能的情况下，大大减少了每次前向传播所需的计算量，提高了后期采样的速度。

Apr, 2024

机器翻译的深度 Transformer 模型学习

本篇研究论文提出了一种通过适当使用层归一化技术以及一种新的传递先前层组合方法，在机器翻译任务中，构建比 Transformer-Big 模型更深层的 Transformer 模型，并在 WMT'16 英德、NIST OpenMT'12 中英和更大的 WMT'18 中英任务中将深层系统（30/25 层编码器）与浅层 Transformer-Big / 基线（6 层编码器）相比，BLEU 分数提高了 0.4-2.4 点，而且深度模型的大小更小 1.6 倍并且训练速度更快 3 倍。

Jun, 2019

进化 Transformer

本研究旨在使用神经架构搜索技术应用于 Transformer 结构中，通过进化架构搜索技术，探索发现了性能更好的替代模型 Evolved Transformer，该模型不仅在 WMT 2014 英德翻译任务上取得了新的性能最优结果，且在模型容量更小的情况下性能优于原始模型。

Jan, 2019

云工作负载预测的 Wasserstein 对抗变换器

本文提出了一种名为 WGAN-gp Transformer 的新型时间序列预测模型，它的生成器基于 Transformer 网络，评论家采用 MLP。该方法对真实工作负载跟踪进行了广泛的评估，发现其可达到 5 倍的快速推理时间和高达 5.1% 的预测准确率。同时还将 WGAN-gp Transformer 应用于 Google 云平台的自动缩放机制，发现其优于基于 LSTM 的机制。

Mar, 2022

具有 Transformer 的内存高效的持续学习

使用预训练 Transformers 并扩展它们与 Adapters，我们开发了一种方法来增量训练模型处理任务序列，成功地避免了灾难性遗忘并且在多个任务上表现良好。

Mar, 2022

Levenshtein Transformer

本文提出了一种部分自回归模型 Levenshtein Transformer，在线性时间复杂度内支持插入和删除操作，实现了互补的拆解和精细化的设计思路，成功地提高了机器翻译和文本自动编辑的效率。

May, 2019

基于 Transformer 的注意力网络用于连续像素智能预测

本文提出的 TransDepth 是一种结合了卷积神经网络和 Transformers 的像素预测模型，使用基于门的注意力机制避免了网络对局部细节的损失，并在三个具有挑战性的数据集上取得了最先进的性能。

Mar, 2021