Transformers 使用高阶优化方法(如迭代牛顿法)实现了上下文学习(即从示例中学习而无需参数更新),并且与梯度下降相比具有相当的收敛速度,同时在条件良好和条件差的数据上都能成功进行上下文学习。
Oct, 2023
线性 Transformer 能隐式地执行梯度下降算法和找到优化策略。
Feb, 2024
通过线性变压器在随机线性回归实例中的全局最小值,我们证明了经过训练的线性变压器的单个关注层实现了预处理的梯度下降的单个迭代,并证明了训练目标的某些临界点实现了 k 次预处理的梯度下降。
Jun, 2023
通过梯度下降训练的具有 softmax 注意力机制的单层 transformer 在学习线性函数类的上下文学习动态方面取得了进展,并对平衡和不平衡特征数据进行了分析,证明了其收敛性和预测误差。
本文通过三类证据说明了基于 transformers 的 in-context learners 在其激活中编码了较小的模型,并更新这些隐式模型为更加精确的预测器;而且,这些学习器学习算法的特征与最佳实践算法相似,这意味着 in-context learners 可以发现标准的估计算法,如梯度下降,闭式 Ridge 回归和最小二乘回归,实验结果验证了这个假设。
Nov, 2022
研究注意力机制的神经网络 transformer 采用渐变流进行单个线性自注意层的训练,实现在新的预测任务中使用标记示例的测试提示时具有预测误差与测试提示分布上最佳线性预测器相竞争的能力,且在多种分布转换下具有鲁棒性。
通过对线性化浅层 transformer 模型的研究,我们对 transformer 训练的复杂性有了更深入的了解,并观察到线性化模型能够重现 transformer 训练动态的几个重要方面,因此,本文的结果表明简单的线性化 transformer 模型实际上能够是理解 transformer 优化的有价值的现实抽象。
为了理解上下文学习现象,最近的研究采用了一个简化的实验框架,并证明了 Transformer 可以学习各种实值函数的基于梯度的学习算法。然而,Transformer 在实现学习算法方面的局限性以及其学习其他形式算法的能力尚不明确,而这些能力在基于注意力模型中是否有限制也不清楚。此外,还需要进一步研究这些简化设置所得出的见解是否可以推广到预训练的大语言模型(LLMs)。在本研究中,我们通过以下方式来一步步回答这些问题:(a)在一个包含各种布尔函数类的测试集上,我们发现 Transformer 在更简单的任务上几乎可以与最佳学习算法相匹配,但在更复杂的任务上性能下降。此外,我们发现某些无注意力模型在一系列任务上与 Transformer 表现(几乎)一致;(b)当提供一个教学序列,即一组通过示例唯一标识一个函数类的示例时,我们发现 Transformer 学习起来更加高效。有趣的是,我们的结果表明,Transformer 可以学习实现两个不同的算法来解决一个任务,并且可以根据上下文示例的顺序自适应地选择更加高效的算法;(c)最后,我们展示了 LLMs(如 LLaMA-2、GPT-4)可以与最近邻基线在保证不在其训练集中的预测任务上竞争。
很多神经网络架构都被证明是图灵完备的,然而,变压器在简单参数配置下能够实现基于梯度的学习算法,包括非线性激活函数情景下学习非线性函数的理论和实证研究。
Dec, 2023
基于 Transformer 模型的研究探讨其训练和预测过程中生成下一个 token 的方式,同时研究了正交矩阵和位置编码对于模型性能的影响。