通过任务提示改进 Transformer 的长度泛化
使用适当的数据格式和位置编码的组合,本研究首次展示了标准 Transformers 在能够外推到输入长度 2.5 倍的序列长度方面的成功,然而与内分布泛化不同,长度泛化仍然是脆弱的,受到随机权重初始化和训练数据顺序等因素的显著影响,导致不同随机种子之间存在较大差异。
Feb, 2024
该研究探讨了基于 transformer 的语言模型的长度推广能力,发现预训练大语言模型的上下文学习能力与记事本提示相结合能大大改善长度推广,并鉴别了错误的共同来源,为赋予语言模型推广到更长问题的能力提供了新的机会。
Jul, 2022
大型语言模型的新兴泛化特性方面已经有了惊人的发现,但在诸多简单推理任务(如算术和奇偶性等)上仍存在问题。本研究针对算法任务的长度泛化范围,通过提出一个统一的框架,阐述了 Transformer 模型在特定任务上表现出的能力和方式。
Oct, 2023
本文研究 transformers 在基本整数算术和泛化到比训练中出现的更长序列的两个挑战中的应对方法,发现相对位置嵌入能够实现简单任务的长度泛化,但是对于乘法而言失败,提出了训练集引导方法(priming),为训练集添加一些长序列以解决此问题,并证明了该方法的有效性。同时,讨论了 priming 在算术以外的潜在应用。
Jun, 2023
通过实验和注意力分析,我们研究了 transformer 模型在学习算术算法(如加法和乘法)方面的固有能力,并确定了几个实现最佳长度泛化的关键因素。我们展示了 transformer 模型能够借助有针对性的注意力偏置来推广到长长度,并引入了注意力偏置校准(ABC)阶段,使模型能够自动学习适当的注意力偏置,我们将其与相对位置编码中的机制联系起来。我们证明使用 ABC,transformer 模型能够在某些算术任务上达到前所未有的完美长度广义。
Oct, 2023
基于修改后的数字格式化和自定义位置编码,我们的方法允许 Transformer 在加法和乘法中以最多 5 位数的数字进行训练并推广到 50 位数,而无需使用更多的数据来处理更长的序列。
Jun, 2024
通过对训练语言模型进行计数,我们发现传统的 RNN 在归纳计数方面的性能远远优于现代 RNN,并且 Transformers 在域外计数方面依赖于位置嵌入,这一发现呼吁学术界重新审视对形式特征的基本函数的应用范围。
May, 2024
本文介绍了一种新的训练方法,使得小型 Transformer 模型可以将两位数的加法推广到具有未知位数的数字,该方法模仿了一种常见的手动大数相加的技术,为我所知,这种方法以前没有在文献中探讨过,所有结果都可复现,相应的 R 代码可在 https://github.com/AGPatriota/ALGA-R/ 上获得。
May, 2024
本研究发现,Transformers 在固定上下文长度的任务中表现出快速泛化的特性。但是,它们不能在任意长度序列上泛化,即使是像复制字符串这样的简单任务也不行。本文介绍了一种新的位置编码方案,可以解决长序列位置编码失效的问题,并通过大规模实验,证明该方案可提高分类精度。
May, 2023
在不预训练的情况下,通过对训练数据进行简单的格式更改并使用包含中间步骤结果的思维链式数据进行训练,即便在完全缺乏预训练的情况下,也可以显著提高算术能力的准确性、样本复杂性和收敛速度。
Jul, 2023