算术变压器可以在操作数长度和数量上实现长度泛化
本文研究了基于解码器的Transformer模型在用不同的位置编码方式时对长度泛化的影响,发现在一系列的推理和数学任务中,NoPE的表现比其它方法更为优秀,而且无需额外计算。理论上,NoPE能够代表绝对和相对位置嵌入,但在使用SGD训练时,它主要呈现T5相对位置嵌入的注意力模式。同时,scratchpad并不总是有助于解决长度泛化问题,其格式对模型的性能有很大的影响。总之,本文的工作表明解码器-only的Transformer不一定需要显式的位置嵌入以在更长的序列上泛化良好。
May, 2023
本文研究transformers在基本整数算术和泛化到比训练中出现的更长序列的两个挑战中的应对方法,发现相对位置嵌入能够实现简单任务的长度泛化,但是对于乘法而言失败,提出了训练集引导方法(priming),为训练集添加一些长序列以解决此问题,并证明了该方法的有效性。同时,讨论了priming在算术以外的潜在应用。
Jun, 2023
使用任务提示的方法改善长度泛化问题,在经典的排序问题上验证了其有效性,并通过探测和可视化技术提出了模型学习行为的理论构建,进一步提高了模型在未知长度上的性能。
Oct, 2023
通过实验和注意力分析,我们研究了transformer模型在学习算术算法(如加法和乘法)方面的固有能力,并确定了几个实现最佳长度泛化的关键因素。我们展示了transformer模型能够借助有针对性的注意力偏置来推广到长长度,并引入了注意力偏置校准(ABC)阶段,使模型能够自动学习适当的注意力偏置,我们将其与相对位置编码中的机制联系起来。我们证明使用ABC,transformer模型能够在某些算术任务上达到前所未有的完美长度广义。
Oct, 2023
大型语言模型的新兴泛化特性方面已经有了惊人的发现,但在诸多简单推理任务(如算术和奇偶性等)上仍存在问题。本研究针对算法任务的长度泛化范围,通过提出一个统一的框架,阐述了Transformer模型在特定任务上表现出的能力和方式。
Oct, 2023
使用适当的数据格式和位置编码的组合,本研究首次展示了标准Transformers在能够外推到输入长度2.5倍的序列长度方面的成功,然而与内分布泛化不同,长度泛化仍然是脆弱的,受到随机权重初始化和训练数据顺序等因素的显著影响,导致不同随机种子之间存在较大差异。
Feb, 2024
通过提出图灵程序,将算法任务分解为模仿图灵机计算步骤的链式思维策略从而实现对一系列算法任务的稳健长度泛化,并证明了变压器模型能够实施图灵程序,并构造了一个模拟任意图灵机的简单 RASP(Weiss et al.)程序。
Jul, 2024
本研究解决了变换器在处理未知长度输入时的泛化能力不足的问题。通过引入循环变换器并采用自适应步数的方法,显著改善了长度泛化能力。研究发现,循环变换器能够学习到高度泛化的解决方案,从而在多个任务中表现出色。
Sep, 2024
本研究解决了变换器在处理长于训练序列的输入时的泛化能力不足问题。我们提出了一个严格的理论框架,分析使用可学习绝对位置编码的因果变换器的长度泛化,证明了一类问题的长度泛化可能性。这一理论不仅解释了许多经验观察,还为预测变换器的长度泛化能力提供了可证明的方法。
Oct, 2024