深度与宽度：Transformer 配置的重新审视

May, 2022

深度与宽度：Transformer 配置的重新审视

Deeper vs Wider: A Revisit of Transformer Configuration

Fuzhao Xue, Jianghai Chen, Aixin Sun, Xiaozhe Ren, Zangwei Zheng...

TL;DR本文通过理论分析和实验评估，重新设计了深度和宽度更浅的 transformer 配置，其中使用 masked 自动编码器训练模型，使模型在 ImageNet 上获得了 87.1％的 top-1 准确性，并在语言任务上优于默认配置的 BERT 达 1.1 个百分点。

Abstract

transformer-based models have delivered impressive results on many tasks, particularly vision and language tasks. In many model training situations, conventional configurations are typically adopted. For example, we often set the base model with hidden dimensions (i.e. model width) to

transformer-based models autoencoder configuration bamboo sota

发现论文，激发创造

拓宽广度而非纵深

本文提出了一种宽架构、混合专家 (MoE) 替代前馈神经网络 (FFN) 的参数高效框架，通过参数共享以压缩深度，并使用独立的 layernorms 来转换各种语义表示，实验结果在多个计算机视觉和自然语言处理基准测试中表现优异，最佳模型能以 0.72 倍的可训练参数超越 Vision Transformer 1.5％、超越 ALBERT 1.8％平均表现和使用分解嵌入参数化的 BERT 0.8％。

Jul, 2021

机器翻译的深度 Transformer 模型学习

本篇研究论文提出了一种通过适当使用层归一化技术以及一种新的传递先前层组合方法，在机器翻译任务中，构建比 Transformer-Big 模型更深层的 Transformer 模型，并在 WMT'16 英德、NIST OpenMT'12 中英和更大的 WMT'18 中英任务中将深层系统（30/25 层编码器）与浅层 Transformer-Big / 基线（6 层编码器）相比，BLEU 分数提高了 0.4-2.4 点，而且深度模型的大小更小 1.6 倍并且训练速度更快 3 倍。

Jun, 2019

深度变换器与潜在深度

本研究提出一种概率框架来自动学习选择哪些层来使用以优化 Transformer 模型的性能，用于训练一种适用于多语言机器翻译的共享 Transformer 网络，缓解梯度消失问题，从而使得深度 Transformer 网络（例如 100 层）稳定训练，并在机器翻译和语言建模任务中实现了更好的性能。

Sep, 2020

浅层至深层训练用于神经机器翻译

本文研究了通过浅层模型堆叠训练深度编码器的浅层到深层的方法对神经机器翻译模型进行改进，并通过实验表明该方法可以显著提高翻译质量，并在 WMT'16 和 WMT'14 的任务中取得了 30.33 和 43.29 的 BLEU 分数。

Oct, 2020

NarrowBERT: 增强遮蔽语言模型的预训练和推理速度

本文介绍了一种修改的 transformer 编码器 --NarrowBERT，其通过使自注意力查询和前向层仅在预训练期间的屏蔽令牌上操作，从而增加了掩码语言模型预训练的吞吐量。此外，本文还显示，与 MNLI 等句子编码任务相比，NarrowBERT 在推理时间的吞吐量提高了多达 3.5 倍，性能降低最小（或没有），并且在 IMDB，亚马逊评论分类和 CoNLL NER 任务上的 NarrowBERT 表现也与标准 BERT 相当。

Jan, 2023

图像 Transformer 的深入研究

本文研究了基于 Transformer 的图片分类模型的优化，通过两个 Transformer 模型的改进，使得模型深度增加能够带来更好的性能表现，并在 Imagenet 数据集上取得了 86.5% 的 top-1 准确率，创造了当前最高成绩。同时，我们还通过重新评估标签，打破了 Imagenet-V2 数据集的最高准确率记录，并开放了源代码和训练好的模型。

Mar, 2021

哪种 transformer 架构适合我的数据？自注意力中的词汇瓶颈

论文研究了 Transformer 的结构配置问题，并且提出了嵌入秩瓶颈的概念，通过实验验证了这种瓶颈的存在并显示了它在 Transformer 结构的深度与宽度之间的相互作用中的影响，同时提出了一种排查 ALBERT 和 T5 在 NLP 模型中冗余的方法。

May, 2021

深度转换器语言建模

本文研究了基于深度自回归 Transformer 模型在语言建模和语音识别中的应用，探索了配置 Transformer 模型进行语言建模的方法和深度 Transformer 语言模型是否需要位置编码，证明了深度 Transformer 语言模型可以自动利用序列中的位置信息，并能在语音识别模型中得到应用。

May, 2019

深度和宽度对 Transformer 语言模型泛化的影响

通过对 transformers 进行实验，我们发现深度模型相比较较浅模型能更好地进行组成性泛化，并得出更深的模型在语言建模性能上表现更好的结论。

Oct, 2023

多路径变换器更好：神经机器翻译的案例研究

本文研究了通过参数效率的多路径结构，如何影响变压器 (Transformer) 模型，并通过 12 个 WMT 机器翻译任务的广泛实验表明，使用相同数量的参数，较浅的多路径模型可以实现类似甚至更好的性能，揭示了在训练更好的大型 Transformer 时，应该注意多路径结构和模型深度和宽度之间的平衡。

May, 2023