像 Transformer 一样进行计数:将时间计数逻辑编译成 Softmax Transformers
通过与有限转导器的关系,我们研究了变压器的序列到序列映射能力,并发现它们能够表达出令人惊讶的大类转导。我们使用 RASP 的变体作为中间表示形式,该编程语言旨在帮助人们 “像变压器一样思考”。我们将现有的布尔变体 B-RASP 扩展到序列到序列函数,并且表明它计算了一阶有理函数(如字符串旋转)。随后,我们引入两个新的扩展。B-RASP [pos] 允许在位置上进行计算(如复制字符串的前一半),并且包含所有一阶正则函数。S-RASP 添加了前缀和,它使得额外的算术运算成为可能(如字符串的平方),并且包含了所有一阶多正则函数。最后,我们展示了掩码平均硬注意力变压器可以模拟 S-RASP。我们结果的一个推论是变压器解码器是图灵完备的的新证明。
Apr, 2024
Transformer 编码器通过硬注意力和严格的未来掩码来识别语言,其所识别的语言类是无星自由语言;添加位置嵌入可以扩展所识别的语言类到其他研究领域。通过布尔 RASP 技术,我们将 Transformer 与一阶逻辑、时间逻辑和代数自动机理论联系起来。
Oct, 2023
本文提出了一种计算模型,将 Transformer-encoder 的基本组件 attention 和 feed-forward 计算映射到简单的原语中,并形成一种编程语言 RASP,用于编程解决可能由 Transformer 学习的任务,并演示了如何训练 Transformer 模仿 RASP 解决方案,并且利用该模型分析了所需图层和注意头数。
Jun, 2021
本文提供了一种全面的方法,可以在可扩展的方式中将各种掩码机制纳入 Transformers 架构。我们提出了一种基于拓扑的建模方法,可以生成高效的 d 维 RPE 掩码和图核心掩码。
Jul, 2021
该研究探讨了如何将循环神经网络与 Transformers 结合起来,以实现更好的压缩表示和表达能力,以在视觉感知和序列决策任务中提高样本效率和泛化性能。
May, 2022
本文通过动态分配计算资源到序列的特定位置,优化了模型深度中不同层级的计算分配,从而实现了对计算资源的灵活分配和预测性控制。这种方法在保持总计算预算的同时,能够以非均匀的方式在时间和模型深度维度上高效地分配计算资源,并且以相当于基准性能的情况下,大大减少了每次前向传播所需的计算量,提高了后期采样的速度。
Apr, 2024
提出自回归模型,从系统追踪中生成线性时间逻辑公式,用于解决规范挖掘问题,并使用多种架构和度量方法进行实验证明其有效性。
May, 2024
该研究提供了一种不依赖输入序列长度的基于规范化的 Transformer 架构的广义化界限,并使用基于覆盖数的方法证明了该界限。我们使用三种新颖的覆盖数界限来上界 Transformer 的 Rademacher 复杂性,并展示了这种广义化界限适用于常见的 Transformer 训练技术:屏蔽并预测屏蔽词。此外,我们还在一个稀疏多数数据集上进行了模拟研究,从实证上验证了我们的理论发现。
Oct, 2023
该论文研究了 Transformers 模型在自然语言处理任务中的应用,并发现它们与常深度门电路之间的关系,通过两个假设(平均难度的注意力和对内部计算相对于输入长度的对数精度)。研究表明,平均难度的注意力 Transformers 可以识别属于复杂度类 TC0 的语言,而对数精度 Transformers 可以识别属于均匀 TC0 类的语言。此外,该论文还指出第一个结果可以扩展为生成均匀电路。
Aug, 2023
本文研究了两种主要方法在增强 Transformer 与循环机制方面的归纳倾向性,其中一种是类似于通用 Transformer 的逐层循环方法,另一种是类似于时态潜变块的分块时间循环方法。此外,我们提出并研究了扩展和组合上述方法的新方式,例如,我们为通用 Transformer 提出了一种基于全局均值的动态停止机制,并将时态潜变块与通用 Transformer 的要素进行了增强。我们通过一些诊断性任务(如长距离竞技场,翻转语言建模,列表操作和逻辑推理)比较了这些模型,并探讨了它们的归纳倾向性。
Feb, 2024