超越 Transformers 的函数学习
通过研究小规模 transformer 在重建部分遮蔽的简单蓝图可视场景方面的内在机制,我们发现网络发展了一种包含数据集的所有语义特征的中间抽象表示或抽象,这些抽象表现为低维流形,其中语义相关令牌的嵌入短暂地收敛,从而实现了对下游计算的泛化。我们还引入了一种语言增强架构(LEA),旨在鼓励网络表达其计算过程,发现 LEA 发展了一种易于解释的以抽象为中心的语言,使我们更容易访问和指导网络的决策过程。
Dec, 2023
本文提出一种基于通用 Transformer 的深度学习模型,通过发现高效的算数程序,利用外部的网格状记忆进行多位数的加法计算,并且发掘了人类类似的计算策略,如位值对齐。
Jul, 2022
在变压器架构下,输入空间敏感性限制了损失函数的变化趋势,使得变压器在一般化方面表现出低敏感性和低程度的偏好,并且在计算简单形式语言(如 PARITY)和长度一般化方面存在困难。
Feb, 2024
本文考虑了学习支持外推的表示的挑战,引入了一种新颖的视觉类比基准和一种简单的技术:时间上下文归一化来支持关系强调的表示,接着发现该技术显著提高了外推能力,胜过了许多竞争技术。
Jul, 2020
调查了 Transformer 大型语言模型在涉及抽象符号的关系推理任务中的能力。对于 (i) 回归任务,我们证明了 Transformer 在训练时具有泛化性,但需要大量的训练数据;对于具有符号标签的 (ii) 下一个令牌预测任务,我们展示了一种 “反比例尺律”:随着嵌入维度的增加,Transformer 无法泛化。针对 (i) 和 (ii) 这两种情况,我们提出了微妙的 Transformer 修改,通过每个头部添加两个可训练参数来减少所需的数据量。
Oct, 2023
本文研究了神经网络在程序编写和形式验证方面的行为,重点关注结构递归,并评估了变压器模型在近似这些函数中的能力及其局限性,并通过重构算法正确预测了近似函数的失败案例的 91%。
May, 2023
本文对 Transformers 和 recurrent models 的归纳偏差进行大量实证研究,发现 Transformers 在形式语言的建模上相对较弱,但其在归纳偏差方面与 recurrent models 存在差异,可解释其在泛化性能方面表现优异。
Nov, 2022
本研究通过对语言模型进行先验的结构性偏置,探索了不同感性学习偏差的影响,并研究了三种感性偏差的相对成功:1)递归,分层处理的感性偏差;2)无法通过上下文自由文法建模的无限制令牌 - 令牌依赖的感性偏差;和 3)一个 Zipfian 幂律词汇分布的感性偏差。我们发现,复杂的令牌 - 令牌交互形成了最好的感性偏向,并且在非上下文自由情况下最强。同时,我们还表明,独立于语法结构,Zipfian 词汇分布形成一个良好的感性偏向。
Apr, 2023
通过对变压器在随机输入变化的敏感性进行研究,揭示了其简约偏差以及频谱偏差,并发现低敏感性偏差与提高鲁棒性相关,并可作为进一步提高变压器鲁棒性的有效干预手段。
Mar, 2024
为了理解上下文学习现象,最近的研究采用了一个简化的实验框架,并证明了 Transformer 可以学习各种实值函数的基于梯度的学习算法。然而,Transformer 在实现学习算法方面的局限性以及其学习其他形式算法的能力尚不明确,而这些能力在基于注意力模型中是否有限制也不清楚。此外,还需要进一步研究这些简化设置所得出的见解是否可以推广到预训练的大语言模型(LLMs)。在本研究中,我们通过以下方式来一步步回答这些问题:(a)在一个包含各种布尔函数类的测试集上,我们发现 Transformer 在更简单的任务上几乎可以与最佳学习算法相匹配,但在更复杂的任务上性能下降。此外,我们发现某些无注意力模型在一系列任务上与 Transformer 表现(几乎)一致;(b)当提供一个教学序列,即一组通过示例唯一标识一个函数类的示例时,我们发现 Transformer 学习起来更加高效。有趣的是,我们的结果表明,Transformer 可以学习实现两个不同的算法来解决一个任务,并且可以根据上下文示例的顺序自适应地选择更加高效的算法;(c)最后,我们展示了 LLMs(如 LLaMA-2、GPT-4)可以与最近邻基线在保证不在其训练集中的预测任务上竞争。
Oct, 2023