转换器作为算法:上下文学习中的泛化和稳定性
本文提供了建立在 transformer 结构上的神经序列模型的全面统计理论,阐述其在上下文数据分布中能够实现一类广泛的标准机器学习算法,基于上下文梯度下降机制的实现,以及不同算法之间的自适应选择。
Jun, 2023
研究注意力机制的神经网络transformer采用渐变流进行单个线性自注意层的训练,实现在新的预测任务中使用标记示例的测试提示时具有预测误差与测试提示分布上最佳线性预测器相竞争的能力,且在多种分布转换下具有鲁棒性。
Jun, 2023
为了理解上下文学习现象,最近的研究采用了一个简化的实验框架,并证明了Transformer可以学习各种实值函数的基于梯度的学习算法。然而,Transformer在实现学习算法方面的局限性以及其学习其他形式算法的能力尚不明确,而这些能力在基于注意力模型中是否有限制也不清楚。此外,还需要进一步研究这些简化设置所得出的见解是否可以推广到预训练的大语言模型(LLMs)。在本研究中,我们通过以下方式来一步步回答这些问题:(a)在一个包含各种布尔函数类的测试集上,我们发现Transformer在更简单的任务上几乎可以与最佳学习算法相匹配,但在更复杂的任务上性能下降。此外,我们发现某些无注意力模型在一系列任务上与Transformer表现(几乎)一致;(b)当提供一个教学序列,即一组通过示例唯一标识一个函数类的示例时,我们发现Transformer学习起来更加高效。有趣的是,我们的结果表明,Transformer可以学习实现两个不同的算法来解决一个任务,并且可以根据上下文示例的顺序自适应地选择更加高效的算法;(c)最后,我们展示了LLMs(如LLaMA-2、GPT-4)可以与最近邻基线在保证不在其训练集中的预测任务上竞争。
Oct, 2023
大型语言模型在转换器架构的基础上展现了卓越的上下文学习能力,本研究旨在深入了解更复杂的情境中的上下文学习,并通过研究表示学习来探索其机制和性能。
Oct, 2023
Transformers使用高阶优化方法(如迭代牛顿法)实现了上下文学习(即从示例中学习而无需参数更新),并且与梯度下降相比具有相当的收敛速度,同时在条件良好和条件差的数据上都能成功进行上下文学习。
Oct, 2023
在这项研究中,我们研究了Transformer模型,特别是大型语言模型(LLMs),它们具有在上下文中学习的显著能力,即在未见过的输入-输出示例的提示下执行新任务,而无需任何显式的模型训练。我们的实证结果显示变压器在选择无监督模型和在上下文中学习不同任务家族方面表现出近乎最优的能力,但当面对超出预训练数据领域的任务或功能时,我们展示了变压器的各种失败模式和其泛化能力的退化,即使是简单的外推任务也是如此。总的来说,我们的结果强调了高容量序列模型令人印象深刻的上下文学习能力可能与其预训练数据组合的覆盖范围更紧密相关,而不是创造基本泛化能力的归纳偏差。
Nov, 2023
transformer神经网络虽然没有明确训练用于上下文学习,但其仍具备令人惊讶的上下文学习能力。然而,研究发现ICL在训练过程中常常是短暂的,且ICL和in-weights learning之间存在竞争关系,使用L2正则化可能提供更持久的ICL。
Nov, 2023
通过理论分析,我们首次探讨了具有非线性自注意力和非线性MLP的Transformer模型的训练动态和ICL泛化能力,重点关注一组二分类任务,研究了各种因素对ICL泛化性能的影响,探讨了不同组件对ICL性能的贡献,并首次理论分析了模型修剪对ICL性能的影响,证明合适的基于大小的修剪可以在降低推理成本的同时对ICL产生最小影响,并通过数值实验验证了这些理论结果。
Feb, 2024
本研究解决了对预训练大语言模型在上下文学习中如何对未见样例进行泛化的理论理解缺乏的问题。作者通过非线性回归任务分析变压器的训练动态,提出了在小样本提示下通过学习每个任务的模板函数来实现上下文泛化的创新方法。研究表明,在特定假设下,变压器能够有效学习上下文信息,从而实现对新任务和样例的泛化,这为机器学习模型的训练提供了新的视角。
Aug, 2024
本文研究了大型语言模型的上下文学习(ICL)在统计学习理论中的有效性,提出了变压器在非参数回归任务中的逼近和泛化误差界限。研究表明,经过充分训练的变压器不仅能够实现最小最大最优的估计风险,还能在上下文中提升表示能力,进而揭示任务多样性和表征学习在ICL中的关键作用。
Aug, 2024