将变压器视为所罗门夫归纳法的近似

Aug, 2024

将变压器视为所罗门夫归纳法的近似

Transformers As Approximations of Solomonoff Induction

Nathan Young, Michael Witbrock

TL;DR本研究探讨了所罗门夫归纳法在序列预测中的最优性，提出变压器模型在接近这一理想的预测能力上优于其他方法。我们提供了支持和反对这一假设的证据，并提出了考虑这些证据的替代假设，展望了未来在此基础上对变压器及其他人工智能的建模方向。

Abstract

Solomonoff Induction is an optimal-in-the-limit unbounded algorithm for Sequence Prediction, representing a Bayesian mixture of every computable probability distribution and performing close to optimally in predi

发现论文，激发创造

Transformer是否是序列到序列函数的通用逼近器？

本文证明了 Transformer 模型具有连续排列等变序列到序列函数的通用逼近性，并且使用位置编码绕过了排列等变性的限制，展示了 Transformer 可以普遍逼近任意的连续序列到序列函数。该文章的基础是对 Transformer 中自注意力和前馈层分别在模型中的不同作用，在分析的基础上，考虑了其他简单的自注意力层的替代方法并进行了实验性评估。

Dec, 2019

关于Transformer的计算能力及其对序列建模的启示

这篇论文研究了变形金刚网络的计算能力与图灵完备性，得出了只有通过位置掩蔽而没有位置编码的变形金刚同样具有图灵完备性，而某些残差连接是必需的结论，并通过机器翻译和合成任务的实验说明了结果的实际应用。

Jun, 2020

评估神经语言模型中的分布扭曲

我们发现，LSTM和Transformer语言模型系统地低估了来自目标语言的序列的概率，并且对于不太可能出现的序列更为严重，尽管使用更多的训练数据减轻了这种倾向，但这种低估行为还是存在，并且在目标分布熵较低时加剧了这种情况，并且找到了导致这种概率差距的原因在于语言模型往往会高估不规范序列的概率。

Mar, 2022

基于Transformer网络的序列建模近似理论

本文探讨了Transformer在逼近序列关系上的能力和结构属性，通过证明其hypothesis空间的普适逼近定理，得出了一种新的正则化概念，并对其逼近率进行了显式估计，进而揭示了其与传统序列建模方法之间的结构偏差。

May, 2023

Sumformer: 高效Transformer的通用逼近

本文介绍了一种新的神经网络架构Sumformer，可以近似等变序列到序列的函数。作者使用Sumformer在Linformer和Performer上实现了第一个通用的逼近结果，并提出了Transformer的新证明，仅需要一个注意力层即可实现通用逼近。

Jul, 2023

变压器是通用预测器

本研究发现了Transformer架构在语言模型方面的局限性，证明了它在信息理论意义上具有普适预测性，并在非渐近数据区域中分析了各种Transformer架构组件的性能，尤其是在数据有效训练的情境中。我们通过对合成和真实数据集的实验验证了我们的理论分析。

Jul, 2023

重复之我见: 变压器优于状态空间模型的复制

在这篇论文中，我们研究了使用不依赖于序列长度的固定大小的潜在状态的模型（我们将其称为“广义状态空间模型”（GSSMs））与transformer模型在需要从输入上下文中进行复制的任务上的性能差异。我们从对简单的字符串复制任务的理论分析开始，并证明了一个二层transformer可以复制指数长度的字符串，而GSSMs因为固定大小的潜在状态而受到限制。在实证研究中，我们发现transformers在需要复制上下文的合成任务上效果优于GSSMs，无论是在效率还是在泛化方面。最后，我们评估了预训练的大型语言模型，并发现transformer模型在复制和检索上下文信息的任务上远远胜过状态空间模型。综合这些结果表明，在实际任务中，transformers与GSSMs之间存在着根本的差距。

Feb, 2024

借助马尔科夫链的注意力：通过马尔科夫链分析Transformer的原则框架

通过马尔可夫链的角度研究变压器的序列建模能力，并在理论和实验上研究数据分布特性、变压器结构、学习分布和模型性能之间的相互作用。

Feb, 2024

使用Rollout算法生成n-Grams、Transformers、HMMs和Markov Chains的最可能序列生成

本研究提出了一种基于$n$-gram结构的transformer模型，并探讨了根据概率计算高可能性词序列的方法，以及基于单一策略迭代的推演方法，实验结果显示这些方法可以在计算量上进行适度的增加，同时生成高可能性的词序列。

Mar, 2024

通过N-gram统计理解Transformer

该论文描述了一种通过使用简单的N-gram基于训练数据的统计规则集来近似Transformer模型预测，从而帮助理解和解释Transformer的工作原理，包括检测训练期间的过拟合方法、计量Transformer从学习简单到更复杂的统计规则的进展程度、描述Transformer预测与N-gram规则之间的模型变异判据，以及在规则集变得越来越复杂时，N-gram规则集如何逼近Transformer模型的研究发现。

Jun, 2024