在小数据集上优化深度 Transformer

ACLDec, 2020

Optimizing Deeper Transformers on Small Datasets

Peng Xu, Dhruv Kumar, Wei Yang, Wenjie Zi, Keyi Tang...

TL;DR本文指出对于少量数据集的挑战性任务，如文本到 SQL 语义解析和逻辑阅读理解等，使用预训练模型进行微调是不必要的。通过新型数据依赖 Transformer 固定更新初始化方案（DT-Fixup），我们成功训练了由 48 个 transformers 层组成的模型，在无具体预训练的情况下，只需少量的训练步骤，就可以在挑战性的交叉领域文本到 SQL 解析基准 Spider 上实现最先进的性能。

Abstract

It is a common belief that training deep transformers from scratch requires large datasets. Consequently, for small datasets, people usually use shallow and simple additional layers on top of pre-trained models d

deep transformers small datasets fine-tuning text-to-sql dt-fixup

发现论文，激发创造

通过深度缩放初始化和合并注意力改进深度 Transformer

本文研究了 NLP 中 Transformers 的深度网络结构存在的一些问题，提出了使用 DS-Init 和 MAtt 方法来解决梯度消失和计算效率问题，实验证明这些方法可以有效提升机器翻译的 BLEU 值。

Aug, 2019

深度变换器与潜在深度

本研究提出一种概率框架来自动学习选择哪些层来使用以优化 Transformer 模型的性能，用于训练一种适用于多语言机器翻译的共享 Transformer 网络，缓解梯度消失问题，从而使得深度 Transformer 网络（例如 100 层）稳定训练，并在机器翻译和语言建模任务中实现了更好的性能。

Sep, 2020

DeepNet: 将 Transformer 扩展至 1,000 层

通过引入新的归一化函数（DeepNorm）来修改 Transformer 中的残差连接，并进行理论分析，提出了一种简单而有效的方法来稳定极深的 Transformers 模型。该方法结合了 Post-LN 的优秀性能和 Pre-LN 的稳定训练，并成功将 Transformers 模型扩展到 1000 层。在多语言基准测试中，使用 DeepNorm 和 3.2B 参数的 200 层模型比使用 12B 参数的 48 层最先进模型高 5 BLEU 点。

Mar, 2022

机器翻译的深度 Transformer 模型学习

本篇研究论文提出了一种通过适当使用层归一化技术以及一种新的传递先前层组合方法，在机器翻译任务中，构建比 Transformer-Big 模型更深层的 Transformer 模型，并在 WMT'16 英德、NIST OpenMT'12 中英和更大的 WMT'18 中英任务中将深层系统（30/25 层编码器）与浅层 Transformer-Big / 基线（6 层编码器）相比，BLEU 分数提高了 0.4-2.4 点，而且深度模型的大小更小 1.6 倍并且训练速度更快 3 倍。

Jun, 2019

结构化丢弃降低 Transformer 深度

本文介绍了一种新的结构化 dropout 形式 ——LayerDrop，该形式可在训练过程中实现正则化效果，在推理时允许有效的剪枝。作者通过实验证明了该方法对机器翻译、语言模型、文本摘要、问答和语言理解等基准测试的提升，并提出使用该方法可以得到更高质量的类 BERT 模型。

Sep, 2019

图像 Transformer 的深入研究

本文研究了基于 Transformer 的图片分类模型的优化，通过两个 Transformer 模型的改进，使得模型深度增加能够带来更好的性能表现，并在 Imagenet 数据集上取得了 86.5% 的 top-1 准确率，创造了当前最高成绩。同时，我们还通过重新评估标签，打破了 Imagenet-V2 数据集的最高准确率记录，并开放了源代码和训练好的模型。

Mar, 2021

浅层至深层训练用于神经机器翻译

本文研究了通过浅层模型堆叠训练深度编码器的浅层到深层的方法对神经机器翻译模型进行改进，并通过实验表明该方法可以显著提高翻译质量，并在 WMT'16 和 WMT'14 的任务中取得了 30.33 和 43.29 的 BLEU 分数。

Oct, 2020

关于低资源语言翻译的最优 Transformer 深度

本研究对 Transformer 模型在低资源语言翻译中的应用进行了探究，发现过度追求模型大小存在负面影响，需要注意调整超参数以提高性能。同时，本研究旨在挖掘更佳的模型性能，以推动 “Masakhane” 项目的发展。

Apr, 2020

细节见魔鬼：简单技巧提高 Transformer 系统化泛化能力

通过重新设计模型配置，如 embedding、early stopping、相对位置嵌入和 Universal Transformer 变体等基本元素，我们可以显著提高 Transformers 在系统泛化方面的性能，同时在 PLE、COGS、SCAN 等数据集上显示性能的提高，从而表明在开发具有系统性泛化能力的神经网络时需要恰当的泛化验证集。

Aug, 2021

使用预训练转换器进行人类级自然语言处理的实证评估：样本大小和维度的作用

本文系统研究了在人类级别 NLP 任务如何通过降维方法及向量嵌入维度与样本大小来提高预测性能，其中 RoBERTa 模型在使用 PCA 降维时处理长文本用户表现更佳，大多数任务仅需 1/12 的向量嵌入维度即可达到最佳表现。

May, 2021