深度和宽度对 Transformer 语言模型泛化的影响

Oct, 2023

深度和宽度对 Transformer 语言模型泛化的影响

The Impact of Depth and Width on Transformer Language Model Generalization

Jackson Petty, Sjoerd van Steenkiste, Ishita Dasgupta, Fei Sha, Dan Garrette...

TL;DR通过对 transformers 进行实验，我们发现深度模型相比较较浅模型能更好地进行组成性泛化，并得出更深的模型在语言建模性能上表现更好的结论。

Abstract

To process novel sentences, language models (LMs) must generalize compositionally -- combine familiar elements in new ways. What aspects of a model's structure promote compositional generalization? Focusing on

language models compositional generalization transformers depth width

发现论文，激发创造

多路径变换器更好：神经机器翻译的案例研究

本文研究了通过参数效率的多路径结构，如何影响变压器 (Transformer) 模型，并通过 12 个 WMT 机器翻译任务的广泛实验表明，使用相同数量的参数，较浅的多路径模型可以实现类似甚至更好的性能，揭示了在训练更好的大型 Transformer 时，应该注意多路径结构和模型深度和宽度之间的平衡。

May, 2023

深度变换器与潜在深度

本研究提出一种概率框架来自动学习选择哪些层来使用以优化 Transformer 模型的性能，用于训练一种适用于多语言机器翻译的共享 Transformer 网络，缓解梯度消失问题，从而使得深度 Transformer 网络（例如 100 层）稳定训练，并在机器翻译和语言建模任务中实现了更好的性能。

Sep, 2020

Transformer 模型解决复合任务

通过探索 Transformer 模型的设计空间，我们发现一些设计上的决策对该模型的归纳偏差有很大的影响。我们发现这些决策可以显著地提高 Transformer 模型的组合泛化能力，并在各种复合任务中实现了比文献报道的更好的泛化结果，并在语义分析组合泛化基准（COGS）和字符串编辑操作组合基准（PCFG）中实现了最先进的结果。

Aug, 2021

大型语言模型中的长度泛化探究

该研究探讨了基于 transformer 的语言模型的长度推广能力，发现预训练大语言模型的上下文学习能力与记事本提示相结合能大大改善长度推广，并鉴别了错误的共同来源，为赋予语言模型推广到更长问题的能力提供了新的机会。

Jul, 2022

机器翻译的深度 Transformer 模型学习

本篇研究论文提出了一种通过适当使用层归一化技术以及一种新的传递先前层组合方法，在机器翻译任务中，构建比 Transformer-Big 模型更深层的 Transformer 模型，并在 WMT'16 英德、NIST OpenMT'12 中英和更大的 WMT'18 中英任务中将深层系统（30/25 层编码器）与浅层 Transformer-Big / 基线（6 层编码器）相比，BLEU 分数提高了 0.4-2.4 点，而且深度模型的大小更小 1.6 倍并且训练速度更快 3 倍。

Jun, 2019

关于低资源语言翻译的最优 Transformer 深度

本研究对 Transformer 模型在低资源语言翻译中的应用进行了探究，发现过度追求模型大小存在负面影响，需要注意调整超参数以提高性能。同时，本研究旨在挖掘更佳的模型性能，以推动 “Masakhane” 项目的发展。

Apr, 2020

当可以进行变形器基础和组合：来自组合泛化基准测试的见解

使用谷歌的翻译翻译：“该论文介绍了基于变压器的模型如何理解世界，并将语言表达与现实世界联系起来，这对研究者在这一领域的工作非常有帮助。通过在基于网格的导航任务上进行的基准测试，我们发现识别网格世界中的目标位置是模型面临的主要挑战，变压器可以泛化到更深的输入结构，并提供了一种更简单的基于调节的组合任务，以调查变压器的计算行为。

Oct, 2022

评估模型规模对语义解析中组合泛化的影响

通过对 11B 参数的 encoder-decoder 模型和 540B 参数的 decoder-only 模型的 fine-tuning 参数、prompt-tuning 和 in-context learning 三种不同方法的比较，发现 pre-trained language models 在 semantic parsing 中在 out-of-distribution compositional generalization 上的 fine-tuning 表现较差，而 in-context learning 虽然具有正向的 scaling curve，但通常被远小于其的 fine-tuned models 胜出，唯独 prompt-tuning 能够胜出 fine-tuning，并为未来的工作提供了有希望的方向。

May, 2022

组合性作为词汇对称性

该文章提出了一种基于数据分布的组合建模通用框架，证明了针对具有词汇表和组合函数的任何可分解任务都存在一族数据转换函数，可在训练数据上产生新的、格式正确的例子，进而说明即使在未知组合函数的情况下 (例如无法编写或推断符号语法), 也可以识别这些数据转换并对普通 RNN 和转换器序列模型进行数据增强，在 CLEVR-CoGenT 视觉问答数据集上获得了最先进的结果，在 COGS 语义分析数据集上获得了与专用模型架构相当的结果。

Jan, 2022

Transformer 模型微调和组合之间的相互作用

研究发现，预训练的转换语言模型在很多 NLP 任务上表现出色；然而，这些模型在短语级别的表示中，除了词汇内容外，缺乏复杂的组合短语信息，进一步的 fine-tuning 只能在情感任务中局部提高性能，而在重新释义任务中则由于数据集中可能存在干扰信号的原因而不能提供改进。

May, 2021