语言模型需具备归纳偏见进行归纳计数
该研究探讨了基于 transformer 的语言模型的长度推广能力,发现预训练大语言模型的上下文学习能力与记事本提示相结合能大大改善长度推广,并鉴别了错误的共同来源,为赋予语言模型推广到更长问题的能力提供了新的机会。
Jul, 2022
本研究探究了 LSTM、ReLU 和 GRU 模型在长序列计数任务的泛化能力,并发现虽然先前的理论工作已经建立了具有适当配置的 RELU 激活和 LSTM 的计数能力,但是 LSTM 模型在实验中仍无法学习到正确的计数行为,并且从验证损失及不同模型的失效方式等角度对问题进行了讨论。
Nov, 2022
使用适当的数据格式和位置编码的组合,本研究首次展示了标准 Transformers 在能够外推到输入长度 2.5 倍的序列长度方面的成功,然而与内分布泛化不同,长度泛化仍然是脆弱的,受到随机权重初始化和训练数据顺序等因素的显著影响,导致不同随机种子之间存在较大差异。
Feb, 2024
大型语言模型的新兴泛化特性方面已经有了惊人的发现,但在诸多简单推理任务(如算术和奇偶性等)上仍存在问题。本研究针对算法任务的长度泛化范围,通过提出一个统一的框架,阐述了 Transformer 模型在特定任务上表现出的能力和方式。
Oct, 2023
机器学习中的算法泛化是指以一种能够概括超出数据分布的方式学习生成数据的底层算法。在本研究中,我们分析了在涉及计数时,不论是隐式还是显式所需的算法泛化。我们展示了标准 Transformer 模型基于的架构决策阻碍了此类任务的超出分布性能。特别是,我们讨论了使用层归一化和通过 softmax 归一化注意力权重的后果。通过消融引起问题的操作,我们证明通过使用非常轻量级的架构,修改后的 Transformer 能够表现出良好的计数算法泛化性能。
Oct, 2023
通过提出图灵程序,将算法任务分解为模仿图灵机计算步骤的链式思维策略从而实现对一系列算法任务的稳健长度泛化,并证明了变压器模型能够实施图灵程序,并构造了一个模拟任意图灵机的简单 RASP(Weiss et al.)程序。
Jul, 2024
本研究通过研究 SEQ2SEQ 学习者对高模糊性任务的偏好,发现 LSTM、Transformer 和 CNN 等模型有不同的归纳偏好。在所有实验中,本研究使用描述长度作为归纳偏差的敏感度度量。
Jun, 2020
使用任务提示的方法改善长度泛化问题,在经典的排序问题上验证了其有效性,并通过探测和可视化技术提出了模型学习行为的理论构建,进一步提高了模型在未知长度上的性能。
Oct, 2023
本文研究 transformers 在基本整数算术和泛化到比训练中出现的更长序列的两个挑战中的应对方法,发现相对位置嵌入能够实现简单任务的长度泛化,但是对于乘法而言失败,提出了训练集引导方法(priming),为训练集添加一些长序列以解决此问题,并证明了该方法的有效性。同时,讨论了 priming 在算术以外的潜在应用。
Jun, 2023
当儿童进入小学阶段时,他们对数字的有序结构的理解从记忆的前 50-100 个数字的计数列表转变为了了解后继函数并理解可数无穷的过程中。我们研究了两个神经网络模型中的这种发展变化,这两个模型通过学习对于 N∈(0, 98) 的一对(N, N+1)上的后继函数来训练。第一个模型使用输入和输出值的独热编码,对应于儿童记忆计数列表,而第二个模型使用基于位置的编码,对应于儿童学习数字数值命名的语言规则。位置权重模型显示出在十进制边界上的可表示相似性的下降趋势。越过十位边界的计数可以被理解为在二维空间中的矢量操作,其中具有相同十位数的数字被以线性可分隔的方式组织在一起,而具有相同个位数的数字则被分组在一起。课程学习模拟表明,在正在发展的儿童数值环境中,较小的数字的表征在学习较大的数字时仍然变得更加精确。这些模型为将来使用递归架构超越学习后继函数并更一般地模拟计数过程奠定了基础,并指示了对理解可数无穷意味着什么的更深入的理解。
Nov, 2023