基于 Transformer 网络的序列建模近似理论
本文研究了 Transformer 网络作为具有无限维输入的序列到序列函数的逼近和估计能力,证明了当目标函数具有各向异性平滑性时,Transformer 可以通过其特征提取能力和参数共享属性避免维数爆炸,并证明了在输入发生变化时 Transformer 可以动态地估计和提取重要特征,并实现了与固定平滑度相似的收敛速度。这些理论结果支持了 Transformer 在高维数据上的实践成功。
May, 2023
我们对 Transformer 在序列建模中长、稀疏和复杂内存的逼近性质进行了系统研究,调查了 Transformer 的不同组件(如点积自注意力、位置编码和前馈层)对其表达能力的影响机制,并通过建立显式的逼近率来研究它们的综合效应。我们的研究揭示了 Transformer 中关键参数(如层数和注意力头数)的作用,并为替代架构提供了自然建议。
Feb, 2024
本文证明了 Transformer 模型具有连续排列等变序列到序列函数的通用逼近性,并且使用位置编码绕过了排列等变性的限制,展示了 Transformer 可以普遍逼近任意的连续序列到序列函数。该文章的基础是对 Transformer 中自注意力和前馈层分别在模型中的不同作用,在分析的基础上,考虑了其他简单的自注意力层的替代方法并进行了实验性评估。
Dec, 2019
该研究提出了一种逆逼近定理,论证了使用 RNN 对非线性序列关系进行逼近的能力受到存储结构的限制,并提出了一种基于理论分析的重新参数化方法以克服这种限制。
May, 2023
通过拓扑理论的视角对变压器神经网络的表达能力进行理论分析,发现许多常见的神经网络架构可以嵌入到分段线性函数的前拓扑中,而变压器必须位于其拓扑完成中,并且指出这两种网络家族实例化了不同的逻辑片段:前者是一阶的,而变压器是高阶推理器,并且将其分析与架构搜索和梯度下降相类比,将其整合到了对测控系统的框架中。
Mar, 2024
本研究发现了 Transformer 架构在语言模型方面的局限性,证明了它在信息理论意义上具有普适预测性,并在非渐近数据区域中分析了各种 Transformer 架构组件的性能,尤其是在数据有效训练的情境中。我们通过对合成和真实数据集的实验验证了我们的理论分析。
Jul, 2023
我们认为 Transformer 模型本质上是图到图的模型,序列只是一种特殊情况。注意力权重在功能上等价于图中的边。我们的图到图 Transformer 架构明确地表达了这个能力,通过将图的边作为输入用于注意力权重计算,并使用类似于注意力的函数预测图中的边,从而将显式图集成到预训练的 Transformer 模型中学习出的潜在图中。添加迭代的图优化过程提供了输入、输出和潜在图的联合嵌入,使得非自回归图预测能够优化完整图,无需任何专门的流水线或解码策略。实证结果表明,该架构在对各种语言结构建模方面取得了最先进的准确性,与预训练学习的潜在语言表示非常有效地集成在一起。
Oct, 2023
该研究提供了一种不依赖输入序列长度的基于规范化的 Transformer 架构的广义化界限,并使用基于覆盖数的方法证明了该界限。我们使用三种新颖的覆盖数界限来上界 Transformer 的 Rademacher 复杂性,并展示了这种广义化界限适用于常见的 Transformer 训练技术:屏蔽并预测屏蔽词。此外,我们还在一个稀疏多数数据集上进行了模拟研究,从实证上验证了我们的理论发现。
Oct, 2023
本篇论文对卷积架构在建模时序序列中的逼近性质进行了理论分析,证明了逼近速率估计和逆逼近定理,并通过引入改进的复杂度测度来提高速率估计。逆逼近定理是新的,两者共同提供了卷积架构能够高效捕捉的时序关系类型的综合特征。
May, 2023