基于 Transformer 网络的序列建模近似理论

May, 2023

基于 Transformer 网络的序列建模近似理论

Approximation theory of transformer networks for sequence modeling

Haotian Jiang, Qianxiao Li

TL;DR本文探讨了 Transformer 在逼近序列关系上的能力和结构属性，通过证明其 hypothesis 空间的普适逼近定理，得出了一种新的正则化概念，并对其逼近率进行了显式估计，进而揭示了其与传统序列建模方法之间的结构偏差。

Abstract

The transformer is a widely applied architecture in sequence modeling applications, but the theoretical understanding of its working principles is limited. In this work, we investigate the ability of transformers

transformer sequence modeling regularity approximation structural bias

发现论文，激发创造

基于无穷维度输入的序列到序列函数的转换器逼近与估计能力

本文研究了 Transformer 网络作为具有无限维输入的序列到序列函数的逼近和估计能力，证明了当目标函数具有各向异性平滑性时，Transformer 可以通过其特征提取能力和参数共享属性避免维数爆炸，并证明了在输入发生变化时 Transformer 可以动态地估计和提取重要特征，并实现了与固定平滑度相似的收敛速度。这些理论结果支持了 Transformer 在高维数据上的实践成功。

May, 2023

理解 Transformer 在序列建模中的表达能力和机制

我们对 Transformer 在序列建模中长、稀疏和复杂内存的逼近性质进行了系统研究，调查了 Transformer 的不同组件（如点积自注意力、位置编码和前馈层）对其表达能力的影响机制，并通过建立显式的逼近率来研究它们的综合效应。我们的研究揭示了 Transformer 中关键参数（如层数和注意力头数）的作用，并为替代架构提供了自然建议。

Feb, 2024

Transformer 是否是序列到序列函数的通用逼近器？

本文证明了 Transformer 模型具有连续排列等变序列到序列函数的通用逼近性，并且使用位置编码绕过了排列等变性的限制，展示了 Transformer 可以普遍逼近任意的连续序列到序列函数。该文章的基础是对 Transformer 中自注意力和前馈层分别在模型中的不同作用，在分析的基础上，考虑了其他简单的自注意力层的替代方法并进行了实验性评估。

Dec, 2019

非线性递归神经网络的逆近似理论

该研究提出了一种逆逼近定理，论证了使用 RNN 对非线性序列关系进行逼近的能力受到存储结构的限制，并提出了一种基于理论分析的重新参数化方法以克服这种限制。

May, 2023

Transformer 网络的拓扑结构

通过拓扑理论的视角对变压器神经网络的表达能力进行理论分析，发现许多常见的神经网络架构可以嵌入到分段线性函数的前拓扑中，而变压器必须位于其拓扑完成中，并且指出这两种网络家族实例化了不同的逻辑片段：前者是一阶的，而变压器是高阶推理器，并且将其分析与架构搜索和梯度下降相类比，将其整合到了对测控系统的框架中。

Mar, 2024

变压器是通用预测器

本研究发现了 Transformer 架构在语言模型方面的局限性，证明了它在信息理论意义上具有普适预测性，并在非渐近数据区域中分析了各种 Transformer 架构组件的性能，尤其是在数据有效训练的情境中。我们通过对合成和真实数据集的实验验证了我们的理论分析。

Jul, 2023

Transformer 简介

本文将准确而简洁介绍变形器体系结构的数学原理，以及设计决策背后的洞察。

Apr, 2023

将 Transformer 模型作为图到图模型

我们认为 Transformer 模型本质上是图到图的模型，序列只是一种特殊情况。注意力权重在功能上等价于图中的边。我们的图到图 Transformer 架构明确地表达了这个能力，通过将图的边作为输入用于注意力权重计算，并使用类似于注意力的函数预测图中的边，从而将显式图集成到预训练的 Transformer 模型中学习出的潜在图中。添加迭代的图优化过程提供了输入、输出和潜在图的联合嵌入，使得非自回归图预测能够优化完整图，无需任何专门的流水线或解码策略。实证结果表明，该架构在对各种语言结构建模方面取得了最先进的准确性，与预训练学习的潜在语言表示非常有效地集成在一起。

Oct, 2023

基于范数的变压器的序列长度无关普适性界

该研究提供了一种不依赖输入序列长度的基于规范化的 Transformer 架构的广义化界限，并使用基于覆盖数的方法证明了该界限。我们使用三种新颖的覆盖数界限来上界 Transformer 的 Rademacher 复杂性，并展示了这种广义化界限适用于常见的 Transformer 训练技术：屏蔽并预测屏蔽词。此外，我们还在一个稀疏多数数据集上进行了模拟研究，从实证上验证了我们的理论发现。

Oct, 2023

线性时态卷积网络的正向和反向逼近理论

本篇论文对卷积架构在建模时序序列中的逼近性质进行了理论分析，证明了逼近速率估计和逆逼近定理，并通过引入改进的复杂度测度来提高速率估计。逆逼近定理是新的，两者共同提供了卷积架构能够高效捕捉的时序关系类型的综合特征。

May, 2023