像Transformer一样进行计数:将时间计数逻辑编译成Softmax Transformers
本文提出使用门控注意力单元和线性近似方法改良Transformers模型的方法,新模型命名为FLASH。该模型在短序列和长序列上都达到了改良Transformers的分词结果,同时在Wiki-40B和PG-19的自回归语言模型上训练速度最多提升了4.9倍,在掩蔽语言模型上提升了4.8倍。
Feb, 2022
本文分析了三种Transformer编码器的形式模型,比较它们的自注意力机制:unique hard attention(UHAT)、generalized unique hard attention(GUHAT)和averaging hard attention(AHAT)。我们发现,UHAT和GUHAT Transformer只能识别AC$^0$复杂性类中的正式语言,而AHAT网络可以识别UHAT和GUHAT不能识别的语言。
Apr, 2022
我们研究了可以被Transformer编码器识别的形式语言,重点关注了两种自注意机制:UHAT(Unique Hard Attention Transformers)和AHAT(Average Hard Attention Transformers)。我们展示了UHAT编码器可以识别第一阶逻辑中可定义的所有语言,而AHAT编码器可以识别加上计数项的逻辑中的所有语言。
Oct, 2023
Transformer编码器通过硬注意力和严格的未来掩码来识别语言,其所识别的语言类是无星自由语言;添加位置嵌入可以扩展所识别的语言类到其他研究领域。通过布尔RASP技术,我们将Transformer与一阶逻辑、时间逻辑和代数自动机理论联系起来。
Oct, 2023
本文研究了两种主要方法在增强Transformer与循环机制方面的归纳倾向性,其中一种是类似于通用Transformer的逐层循环方法,另一种是类似于时态潜变块的分块时间循环方法。此外,我们提出并研究了扩展和组合上述方法的新方式,例如,我们为通用Transformer提出了一种基于全局均值的动态停止机制,并将时态潜变块与通用Transformer的要素进行了增强。我们通过一些诊断性任务(如长距离竞技场,翻转语言建模,列表操作和逻辑推理)比较了这些模型,并探讨了它们的归纳倾向性。
Feb, 2024
通过与有限转导器的关系,我们研究了变压器的序列到序列映射能力,并发现它们能够表达出令人惊讶的大类转导。我们使用RASP的变体作为中间表示形式,该编程语言旨在帮助人们“像变压器一样思考”。我们将现有的布尔变体B-RASP扩展到序列到序列函数,并且表明它计算了一阶有理函数(如字符串旋转)。随后,我们引入两个新的扩展。B-RASP[pos]允许在位置上进行计算(如复制字符串的前一半),并且包含所有一阶正则函数。S-RASP添加了前缀和,它使得额外的算术运算成为可能(如字符串的平方),并且包含了所有一阶多正则函数。最后,我们展示了掩码平均硬注意力变压器可以模拟S-RASP。我们结果的一个推论是变压器解码器是图灵完备的的新证明。
Apr, 2024
给定一个令牌序列,如单词,下一个令牌预测的任务是预测下一个令牌的条件概率分布。我们针对仅编码器的transformer模型的性质进行了研究,并证明了该模型可以插值下一个令牌分布的最大上下文序列的上下界,其中下界只需最小的参数数量即可实现。
May, 2024
研究了编码器-只有变压器 (EOT) 的形式化推理的挑战和可能性,发现 EOT 的满足性问题 (SAT) 是不可判定的,但限定了注意力能力的量化 EOT 可以在 NEXPTIME 内解决 SAT 问题。
May, 2024
我们全面分析了在直方图任务中训练的简单Transformer模型,该任务的目标是计算来自固定字母表的输入序列中每个项的出现次数。尽管表面上看起来很简单,但该任务表现出丰富的现象学,使我们能够描述不同的架构组件如何对不同的算法解决方案的出现做出贡献。我们介绍了实现解决方案的两种定性不同机制:关系和库存法计数。模型能够实现哪种解决方案取决于注意机制、激活函数、记忆容量的精确选择以及是否存在起始序列令牌等因素,通过对计数任务的学习模型进行反思,我们发现了形成两种机制的证据。从更广泛的角度来看,我们的分析提供了一个框架,用于理解Transformer模型的不同架构组件之间的相互作用如何塑造多样化的算法解决方案和近似。
Jul, 2024