循环变压器的表达能力:理论分析与时间步编码增强
本文介绍了两种技术以提高Transformer的效率:使用局部敏感哈希替换点积注意力和使用可逆残差层代替标准残差层,减少存储激活的次数。改进后的模型Reformer在处理长序列时比Transformer更加高效。
Jan, 2020
这篇论文研究了变形金刚网络的计算能力与图灵完备性,得出了只有通过位置掩蔽而没有位置编码的变形金刚同样具有图灵完备性,而某些残差连接是必需的结论,并通过机器翻译和合成任务的实验说明了结果的实际应用。
Jun, 2020
我们对Transformer在序列建模中长、稀疏和复杂内存的逼近性质进行了系统研究,调查了Transformer的不同组件(如点积自注意力、位置编码和前馈层)对其表达能力的影响机制,并通过建立显式的逼近率来研究它们的综合效应。我们的研究揭示了Transformer中关键参数(如层数和注意力头数)的作用,并为替代架构提供了自然建议。
Feb, 2024
本文研究了两种主要方法在增强Transformer与循环机制方面的归纳倾向性,其中一种是类似于通用Transformer的逐层循环方法,另一种是类似于时态潜变块的分块时间循环方法。此外,我们提出并研究了扩展和组合上述方法的新方式,例如,我们为通用Transformer提出了一种基于全局均值的动态停止机制,并将时态潜变块与通用Transformer的要素进行了增强。我们通过一些诊断性任务(如长距离竞技场,翻转语言建模,列表操作和逻辑推理)比较了这些模型,并探讨了它们的归纳倾向性。
Feb, 2024
通过引入Algorithm Transformer(AlgoFormer)的设计,我们增强了transformers的算法表示能力,并且实验证明了AlgoFormer在某些具有挑战性的任务上优于标准transformer和vanilla looped transformer。
Feb, 2024
通过与有限转导器的关系,我们研究了变压器的序列到序列映射能力,并发现它们能够表达出令人惊讶的大类转导。我们使用RASP的变体作为中间表示形式,该编程语言旨在帮助人们“像变压器一样思考”。我们将现有的布尔变体B-RASP扩展到序列到序列函数,并且表明它计算了一阶有理函数(如字符串旋转)。随后,我们引入两个新的扩展。B-RASP[pos]允许在位置上进行计算(如复制字符串的前一半),并且包含所有一阶正则函数。S-RASP添加了前缀和,它使得额外的算术运算成为可能(如字符串的平方),并且包含了所有一阶多正则函数。最后,我们展示了掩码平均硬注意力变压器可以模拟S-RASP。我们结果的一个推论是变压器解码器是图灵完备的的新证明。
Apr, 2024
本研究解决了变换器在处理未知长度输入时的泛化能力不足的问题。通过引入循环变换器并采用自适应步数的方法,显著改善了长度泛化能力。研究发现,循环变换器能够学习到高度泛化的解决方案,从而在多个任务中表现出色。
Sep, 2024
本研究解决了变换器在处理长于训练序列的输入时的泛化能力不足问题。我们提出了一个严格的理论框架,分析使用可学习绝对位置编码的因果变换器的长度泛化,证明了一类问题的长度泛化可能性。这一理论不仅解释了许多经验观察,还为预测变换器的长度泛化能力提供了可证明的方法。
Oct, 2024
本文研究了变压器架构的表达能力,特别是基于旋转位置嵌入(RoPE)的变压器模型。研究结果表明,在一定条件下,这种架构的复杂性界限更为紧凑,揭示了虽然RoPE在实际应用中表现出色,但其表达能力仍然存在基本限制。这为后续关于RoPE变压器的研究提供了理论指导。
Nov, 2024