位置耦合:利用任务结构优化 Transformer 模型的长度泛化
通过修改位置编码或者调整算术任务的表示方式来解决使用位置信息解决小数字算术问题时性能较差的问题,并在乘法和加法任务中展示了改进的效果。
Nov, 2023
基于修改后的数字格式化和自定义位置编码,我们的方法允许 Transformer 在加法和乘法中以最多 5 位数的数字进行训练并推广到 50 位数,而无需使用更多的数据来处理更长的序列。
Jun, 2024
使用适当的数据格式和位置编码的组合,本研究首次展示了标准 Transformers 在能够外推到输入长度 2.5 倍的序列长度方面的成功,然而与内分布泛化不同,长度泛化仍然是脆弱的,受到随机权重初始化和训练数据顺序等因素的显著影响,导致不同随机种子之间存在较大差异。
Feb, 2024
本文研究 transformers 在基本整数算术和泛化到比训练中出现的更长序列的两个挑战中的应对方法,发现相对位置嵌入能够实现简单任务的长度泛化,但是对于乘法而言失败,提出了训练集引导方法(priming),为训练集添加一些长序列以解决此问题,并证明了该方法的有效性。同时,讨论了 priming 在算术以外的潜在应用。
Jun, 2023
本研究发现,Transformers 在固定上下文长度的任务中表现出快速泛化的特性。但是,它们不能在任意长度序列上泛化,即使是像复制字符串这样的简单任务也不行。本文介绍了一种新的位置编码方案,可以解决长序列位置编码失效的问题,并通过大规模实验,证明该方案可提高分类精度。
May, 2023
本文介绍了一种新的机制 ——Decoupled Positional Attention,将位置和段信息编码为 Transformer 模型,提高了训练和推理效率,在 GLUE、XTREME 和 WMT 基准测试中实现了竞争性表现,并进一步将该方法推广到远程的 transformers,显示了性能提升。
Apr, 2021
研究了表现形式对于序列到序列的语言模型学习加减法算术任务的影响,发现表现形式对模型的准确性有很大影响;通过引入位置标记,模型可以准确地学习添加和减少 60 位数字。无论参数和训练示例数量如何,模型都不能学习与训练期间数字长度无关的加和规则。
Feb, 2021
通过在每个数字上添加编码其相对于数字起始位置的嵌入,解决了 transformers 在算术任务中表现较差的问题,并展示了该修复方法进一步提高性能的架构修改方法。通过解决位置问题,研究了 transformers 的逻辑推理能力,并发现通过单个 GPU 训练一天,仅使用 20 位数字,在 100 位加法问题上实现了高达 99% 的准确率的最新结果,并证明这种提高数字能力的方法也适用于其他多步骤推理任务,如排序和乘法。
May, 2024
该文探讨了怎样使用 Transformer 网络在算法任务中表现良好,展示了多层 transformer 网络在任务分解中的可靠性解决方案,以及所有相关任务中的共享计算的利用。
Oct, 2022
本文研究了基于解码器的 Transformer 模型在用不同的位置编码方式时对长度泛化的影响,发现在一系列的推理和数学任务中,NoPE 的表现比其它方法更为优秀,而且无需额外计算。理论上,NoPE 能够代表绝对和相对位置嵌入,但在使用 SGD 训练时,它主要呈现 T5 相对位置嵌入的注意力模式。同时,scratchpad 并不总是有助于解决长度泛化问题,其格式对模型的性能有很大的影响。总之,本文的工作表明解码器 - only 的 Transformer 不一定需要显式的位置嵌入以在更长的序列上泛化良好。
May, 2023