变换器在不同深度下能学到什么？对序列学习任务的案例研究

Apr, 2024

变换器在不同深度下能学到什么？对序列学习任务的案例研究

What Can Transformer Learn with Varying Depth? Case Studies on Sequence Learning Tasks

Xingwu Chen, Difan Zou

TL;DR我们研究了具有不同深度的 transformer 架构的能力，通过设计了一套新的序列学习任务系统地评估和理解深度对 transformer 在记忆、推理、泛化和上下文泛化方面的影响。我们发现只有一个注意力层的 transformer 在记忆方面表现出色，但在其他任务方面表现不足。我们还发现，要表现出推理和泛化能力，transformer 至少需要两个注意力层，而上下文泛化能力可能需要三个注意力层。此外，我们还确定了单个注意力层可以执行的一类简单操作，并且表明复杂任务可以通过这些简单操作的组合以及多个注意力层的叠加来解决。这为研究超越我们设计的更实际和复杂的任务提供了启示。数值实验证实了我们的理论发现。

Abstract

We study the capabilities of the transformer architecture with varying depth. Specifically, we designed a novel set of sequence learning tasks

transformer architecture depth sequence learning tasks memorization reasoning

发现论文，激发创造

基于结构化任务训练的 Transformer 模型的系统泛化和涌现结构

该文探讨了怎样使用 Transformer 网络在算法任务中表现良好，展示了多层 transformer 网络在任务分解中的可靠性解决方案，以及所有相关任务中的共享计算的利用。

Oct, 2022

深度变换器与潜在深度

本研究提出一种概率框架来自动学习选择哪些层来使用以优化 Transformer 模型的性能，用于训练一种适用于多语言机器翻译的共享 Transformer 网络，缓解梯度消失问题，从而使得深度 Transformer 网络（例如 100 层）稳定训练，并在机器翻译和语言建模任务中实现了更好的性能。

Sep, 2020

Transformer 是否需要深度长程记忆

通过一系列干预措施，研究表明使用更少的长时记忆和限制网络低层的注意力范围，可以实现与 Transformer-XL 相当的性能，并且可以获得更好的性能。

Jul, 2020

深度和宽度对 Transformer 语言模型泛化的影响

通过对 transformers 进行实验，我们发现深度模型相比较较浅模型能更好地进行组成性泛化，并得出更深的模型在语言建模性能上表现更好的结论。

Oct, 2023

Transformer 中多头注意力的记忆容量

本文探讨了 Transformers 中的 multi-head attention 的记忆能力，并通过理论分析和实验验证证明：在输入数据恒定的情况下，具有 H 个 attention 头部的层具有记忆容量为 O (Hn)，在图像分类任务中得出结论。

Jun, 2023

单个注意力层可以学到什么？基于随机特征的研究

注意力层是 Transformer 架构的核心组成部分，本研究对单个多头注意力层的学习和泛化进行了严格的理论研究，探讨了随机特征设置下注意力层对目标函数的表达能力、学习复杂度以及采样分布的影响等方面，实验证明了理论结果并展示了样本大小与目标函数复杂度之间的相互作用。

Jul, 2023

一个关于训练于符号多步推理任务的 Transformer 的机制分析

通过对合成推理任务进行综合机械分析，我们鉴定了一组可解释的机制，这个模型用来解决任务，并使用相关和因果证据验证了我们的发现。我们的结果表明，它实现了一组深度有限的并行循环机制，并将中间结果存储在选择的令牌位置，我们期望我们在合成环境中鉴定的这些模式可以为理解变压器的更广泛操作原理提供有价值的见解。

Feb, 2024

Transformer 如何学习主题结构：迈向机制理解

本文研究 transformers 学习的机制和语义结构，揭示了 embedding 层和 self-attention 层如何编码语义结构，具体表现为同主题单词之间的嵌入内积和自注意力相对较高。

Mar, 2023

理解 Transformer 在序列建模中的表达能力和机制

我们对 Transformer 在序列建模中长、稀疏和复杂内存的逼近性质进行了系统研究，调查了 Transformer 的不同组件（如点积自注意力、位置编码和前馈层）对其表达能力的影响机制，并通过建立显式的逼近率来研究它们的综合效应。我们的研究揭示了 Transformer 中关键参数（如层数和注意力头数）的作用，并为替代架构提供了自然建议。

Feb, 2024

Transformer 的表征能力与局限性

本研究通过分析注意力层及其所在的变形器模型的表示能力，探讨这些模型相对于其他架构的优势和劣势，并重点关注了它们的内在复杂度参数，例如宽度、深度和嵌入维度。在正面方面，我们提出了一个稀疏平均任务，并证明了循环网络和前馈网络的复杂性随着输入规模的增大多项式增长，而变形器的复杂性仅随着输入规模的对数增长；此外，我们使用相同的构造来展示了变形器中大嵌入维度的必要性和作用。在消极方面，我们提出了一个三元组检测任务，其中注意力层的复杂性随输入规模线性增长；考虑到这种情况在实践中似乎很少出现，我们还提出了一些自然变种，可以通过注意力层有效地解决。证明技术强调了通信复杂度在变形器及其相关模型的分析中的价值，以及稀疏平均作为原型注意任务的作用，甚至在三元组检测的分析中也有用处。

Jun, 2023