深度与宽度:Transformer 配置的重新审视
本文提出了一种宽架构、混合专家 (MoE) 替代前馈神经网络 (FFN) 的参数高效框架,通过参数共享以压缩深度,并使用独立的 layernorms 来转换各种语义表示,实验结果在多个计算机视觉和自然语言处理基准测试中表现优异,最佳模型能以 0.72 倍的可训练参数超越 Vision Transformer 1.5%、超越 ALBERT 1.8%平均表现和使用分解嵌入参数化的 BERT 0.8%。
Jul, 2021
本篇研究论文提出了一种通过适当使用层归一化技术以及一种新的传递先前层组合方法,在机器翻译任务中,构建比 Transformer-Big 模型更深层的 Transformer 模型,并在 WMT'16 英德、NIST OpenMT'12 中英和更大的 WMT'18 中英任务中将深层系统(30/25 层编码器)与浅层 Transformer-Big / 基线(6 层编码器)相比,BLEU 分数提高了 0.4-2.4 点,而且深度模型的大小更小 1.6 倍并且训练速度更快 3 倍。
Jun, 2019
本研究提出一种概率框架来自动学习选择哪些层来使用以优化 Transformer 模型的性能,用于训练一种适用于多语言机器翻译的共享 Transformer 网络,缓解梯度消失问题,从而使得深度 Transformer 网络(例如 100 层)稳定训练,并在机器翻译和语言建模任务中实现了更好的性能。
Sep, 2020
本文研究了通过浅层模型堆叠训练深度编码器的浅层到深层的方法对神经机器翻译模型进行改进,并通过实验表明该方法可以显著提高翻译质量,并在 WMT'16 和 WMT'14 的任务中取得了 30.33 和 43.29 的 BLEU 分数。
Oct, 2020
本文介绍了一种修改的 transformer 编码器 --NarrowBERT,其通过使自注意力查询和前向层仅在预训练期间的屏蔽令牌上操作,从而增加了掩码语言模型预训练的吞吐量。 此外,本文还显示,与 MNLI 等句子编码任务相比,NarrowBERT 在推理时间的吞吐量提高了多达 3.5 倍,性能降低最小(或没有),并且在 IMDB,亚马逊评论分类和 CoNLL NER 任务上的 NarrowBERT 表现也与标准 BERT 相当。
Jan, 2023
本文研究了基于 Transformer 的图片分类模型的优化,通过两个 Transformer 模型的改进,使得模型深度增加能够带来更好的性能表现,并在 Imagenet 数据集上取得了 86.5% 的 top-1 准确率,创造了当前最高成绩。同时,我们还通过重新评估标签,打破了 Imagenet-V2 数据集的最高准确率记录,并开放了源代码和训练好的模型。
Mar, 2021
论文研究了 Transformer 的结构配置问题,并且提出了嵌入秩瓶颈的概念,通过实验验证了这种瓶颈的存在并显示了它在 Transformer 结构的深度与宽度之间的相互作用中的影响,同时提出了一种排查 ALBERT 和 T5 在 NLP 模型中冗余的方法。
May, 2021
本文研究了基于深度自回归 Transformer 模型在语言建模和语音识别中的应用,探索了配置 Transformer 模型进行语言建模的方法和深度 Transformer 语言模型是否需要位置编码,证明了深度 Transformer 语言模型可以自动利用序列中的位置信息,并能在语音识别模型中得到应用。
May, 2019
通过对 transformers 进行实验,我们发现深度模型相比较较浅模型能更好地进行组成性泛化,并得出更深的模型在语言建模性能上表现更好的结论。
Oct, 2023
本文研究了通过参数效率的多路径结构,如何影响变压器 (Transformer) 模型,并通过 12 个 WMT 机器翻译任务的广泛实验表明,使用相同数量的参数,较浅的多路径模型可以实现类似甚至更好的性能,揭示了在训练更好的大型 Transformer 时,应该注意多路径结构和模型深度和宽度之间的平衡。
May, 2023