通过深度缩放初始化和合并注意力改进深度 Transformer

EMNLPAug, 2019

通过深度缩放初始化和合并注意力改进深度 Transformer

Improving Deep Transformer with Depth-Scaled Initialization and Merged Attention

Biao Zhang, Ivan Titov, Rico Sennrich

TL;DR本文研究了 NLP 中 Transformers 的深度网络结构存在的一些问题，提出了使用 DS-Init 和 MAtt 方法来解决梯度消失和计算效率问题，实验证明这些方法可以有效提升机器翻译的 BLEU 值。

Abstract

The general trend in nlp is towards increasing model capacity and performance via deeper neural networks. However, simply stacking more layers of the popular transformer architecture for →

nlp transformer architecture ds-init matt machine translation

发现论文，激发创造

使用透明化注意力训练更深层的神经机器翻译模型

本篇研究旨在通过对注意机制做出简单修改以训练深度 NMT 模型，我们尝试通过训练深度 Transformer 和 Bi-RNN 编码器来提高机器翻译的质量，结果在 WMT'14 英德和 WMT'15 捷英任务上均取得了 0.7-1.1 的 BLEU 提升。

Aug, 2018

深度可分离 LSTM 变形器

本文提出使用深度可分长短时记忆网络 (depth-wise LSTM) 替代残差连接 (residual connection) 来解决深度 Transformer 模型面临的优化问题，采用深度 LSTM 可以更好地捕捉远距离依赖关系。实验结果表明，采用深度 LSTM 有效提高了模型的 BLEU 值，并且可以更加高效地应用于深度 Transformer 模型。同时，本文提出了一种方法来测度层非线性对模型性能的影响，并证实深度 LSTM 的使用优于残差连接。

Jul, 2020

深度变换器与潜在深度

本研究提出一种概率框架来自动学习选择哪些层来使用以优化 Transformer 模型的性能，用于训练一种适用于多语言机器翻译的共享 Transformer 网络，缓解梯度消失问题，从而使得深度 Transformer 网络（例如 100 层）稳定训练，并在机器翻译和语言建模任务中实现了更好的性能。

Sep, 2020

DeepNet: 将 Transformer 扩展至 1,000 层

通过引入新的归一化函数（DeepNorm）来修改 Transformer 中的残差连接，并进行理论分析，提出了一种简单而有效的方法来稳定极深的 Transformers 模型。该方法结合了 Post-LN 的优秀性能和 Pre-LN 的稳定训练，并成功将 Transformers 模型扩展到 1000 层。在多语言基准测试中，使用 DeepNorm 和 3.2B 参数的 200 层模型比使用 12B 参数的 48 层最先进模型高 5 BLEU 点。

Mar, 2022

在小数据集上优化深度 Transformer

本文指出对于少量数据集的挑战性任务，如文本到 SQL 语义解析和逻辑阅读理解等，使用预训练模型进行微调是不必要的。通过新型数据依赖 Transformer 固定更新初始化方案（DT-Fixup），我们成功训练了由 48 个 transformers 层组成的模型，在无具体预训练的情况下，只需少量的训练步骤，就可以在挑战性的交叉领域文本到 SQL 解析基准 Spider 上实现最先进的性能。

Dec, 2020

神经机器翻译的深度架构

本文介绍和评估了引入深度的机器翻译模型的若干现有方法和新型架构，包括深转移 RNN 和不同深度解码时注意力的使用方式。实验结果表明，BiDeep RNN 架构的组合深度为 8 时在速度和翻译质量方面均有显著提高，相比强浅层基线的平均提高 1.5 BLEU。

Jul, 2017

机器翻译的深度 Transformer 模型学习

本篇研究论文提出了一种通过适当使用层归一化技术以及一种新的传递先前层组合方法，在机器翻译任务中，构建比 Transformer-Big 模型更深层的 Transformer 模型，并在 WMT'16 英德、NIST OpenMT'12 中英和更大的 WMT'18 中英任务中将深层系统（30/25 层编码器）与浅层 Transformer-Big / 基线（6 层编码器）相比，BLEU 分数提高了 0.4-2.4 点，而且深度模型的大小更小 1.6 倍并且训练速度更快 3 倍。

Jun, 2019

神经机器翻译的深度增长

本文提出了一种有效的两阶段方法，包括三个特别设计的组件，以构建深度 NMT 模型，并在 WMT14 英德和英法翻译任务中取得了比强 Transformer 基线显着的改进。

Jul, 2019

不含泪的 Transformer: 改进自注意力的规范化

通过 PreNorm、ScaleNorm 和 FixNorm 三种方法的应用，能够加速模型训练，使其更加稳定，从而在五种低资源的翻译对中得到了 1.1 BLEU 的提升并在 IWSLT'15 上获得 32.8 BLEU 的表现。

Oct, 2019

快速深度自适应变压器

本文提出基于互信息和重构误差两种方法来测量输入词语的难度和估计相应的自适应深度，从而摆脱判停单元，并提高深度自适应模型的速度和稳定性。实验证明，该方法能够在保持高准确性的同时，加快原始 Transformer 速度（高达 7 倍），并提高效率和鲁棒性，相对于其他深度自适应方法具有显著优势。

Apr, 2020