Apr, 2024

变换器在不同深度下能学到什么?对序列学习任务的案例研究

TL;DR我们研究了具有不同深度的 transformer 架构的能力,通过设计了一套新的序列学习任务系统地评估和理解深度对 transformer 在记忆、推理、泛化和上下文泛化方面的影响。我们发现只有一个注意力层的 transformer 在记忆方面表现出色,但在其他任务方面表现不足。我们还发现,要表现出推理和泛化能力,transformer 至少需要两个注意力层,而上下文泛化能力可能需要三个注意力层。此外,我们还确定了单个注意力层可以执行的一类简单操作,并且表明复杂任务可以通过这些简单操作的组合以及多个注意力层的叠加来解决。这为研究超越我们设计的更实际和复杂的任务提供了启示。数值实验证实了我们的理论发现。