Oct, 2023

深度和宽度对 Transformer 语言模型泛化的影响

TL;DR通过对 transformers 进行实验,我们发现深度模型相比较较浅模型能更好地进行组成性泛化,并得出更深的模型在语言建模性能上表现更好的结论。