基于变压器模型的回归混合模型的最优学习
在这项研究中,我们研究了 Transformer 模型,特别是大型语言模型(LLMs),它们具有在上下文中学习的显著能力,即在未见过的输入 - 输出示例的提示下执行新任务,而无需任何显式的模型训练。我们的实证结果显示变压器在选择无监督模型和在上下文中学习不同任务家族方面表现出近乎最优的能力,但当面对超出预训练数据领域的任务或功能时,我们展示了变压器的各种失败模式和其泛化能力的退化,即使是简单的外推任务也是如此。总的来说,我们的结果强调了高容量序列模型令人印象深刻的上下文学习能力可能与其预训练数据组合的覆盖范围更紧密相关,而不是创造基本泛化能力的归纳偏差。
Nov, 2023
通过对线性化浅层 transformer 模型的研究,我们对 transformer 训练的复杂性有了更深入的了解,并观察到线性化模型能够重现 transformer 训练动态的几个重要方面,因此,本文的结果表明简单的线性化 transformer 模型实际上能够是理解 transformer 优化的有价值的现实抽象。
Oct, 2023
Transformers 使用高阶优化方法(如迭代牛顿法)实现了上下文学习(即从示例中学习而无需参数更新),并且与梯度下降相比具有相当的收敛速度,同时在条件良好和条件差的数据上都能成功进行上下文学习。
Oct, 2023
本文提出 Regression Transformer(RT)方法,它是一种基于序列模型的回归模型,可用于小分子、蛋白质和化学反应的属性预测任务及其生成。该方法通过新颖的交替训练方案,使其在化学或蛋白质空间的属性驱动、局部探索中具有特殊的应用和潜在的基础模型设计方向。
Feb, 2022
研究注意力机制的神经网络 transformer 采用渐变流进行单个线性自注意层的训练,实现在新的预测任务中使用标记示例的测试提示时具有预测误差与测试提示分布上最佳线性预测器相竞争的能力,且在多种分布转换下具有鲁棒性。
Jun, 2023
本文分析了基于 MLP 的体系结构模拟多个不同输入之间依赖关系的表达能力,并展示了注意力机制和基于 MLP 的机制之间的指数差距,从而提供了 MLP 无法与注意力机制在 NLP 问题中竞争的理论解释。此外,文中还提出,MLP 相对于注意力机制在建模多个不同位置之间的依赖关系的能力较弱,而将智能输入排列与 MLP 体系结构结合可能不足以单独消除性能差距。
Aug, 2022
通过例子,Transformer 可以学习执行数字计算。作者从基本矩阵操作到特征值分解和求逆,研究了线性代数的九个问题,并引入和讨论了四种编码方案以表示实数。通过使用随机矩阵训练的 Transformers 在所有问题上都能达到高的准确度,并且它们的模型对噪声具有鲁棒性,在训练分布之外也具有泛化能力。特别是,针对 Laplace 分布的特征值进行训练的模型对不同类别的矩阵具有泛化能力:Wigner 矩阵或具有正特征值的矩阵。反之则不成立。
Dec, 2021
通过进行线性回归任务的实验,研究了 transformer 结构的优势,并提供了相应的理论直觉来解释 transformer 如何从非结构化数据中进行上下文学习。特别是观察到:(1)具有两层 softmax (self-) attention 和前瞻性注意力掩码的 transformer 可以从提示中进行学习;(2)位置编码可以进一步提高性能;(3)具有较高输入嵌入维度的多头注意力优于单头注意力。
Feb, 2024