Apr, 2024

变压器作为传感器

TL;DR通过与有限转导器的关系,我们研究了变压器的序列到序列映射能力,并发现它们能够表达出令人惊讶的大类转导。我们使用 RASP 的变体作为中间表示形式,该编程语言旨在帮助人们 “像变压器一样思考”。我们将现有的布尔变体 B-RASP 扩展到序列到序列函数,并且表明它计算了一阶有理函数(如字符串旋转)。随后,我们引入两个新的扩展。B-RASP [pos] 允许在位置上进行计算(如复制字符串的前一半),并且包含所有一阶正则函数。S-RASP 添加了前缀和,它使得额外的算术运算成为可能(如字符串的平方),并且包含了所有一阶多正则函数。最后,我们展示了掩码平均硬注意力变压器可以模拟 S-RASP。我们结果的一个推论是变压器解码器是图灵完备的的新证明。