线性回归的上下文学习需要多少预训练任务?
Transformers 在无需显式先前训练的情况下,基于输入示例学习和执行任务的能力,也称为上下文学习(ICL),是其成功的基础。本研究提供了关于所需样本复杂性、预训练任务多样性和上下文长度对成功 ICL 的明确答案,采用线性关注在 ICL 线性回归任务的可解模型中推导出了学习曲线的锐利渐近线。通过实验证明了随着先前训练示例数量增加,学习曲线具有双峰,且模型的行为在低和高任务多样性之间出现相变:在低多样性情况下,模型趋向于记忆训练任务,而在高多样性情况下,它实现了真正的上下文学习并在预训练任务范围之外进行泛化。这些理论洞见通过线性关注和完全非线性 Transformer 架构的实验进行了经验证实。
May, 2024
通过研究预训练数据集中任务多样性的不同,探究在不同任务多样性阈值下,在新的情境下可以有多大能力。结果表明,如果预训练的数据具有足够的多样性,那么可以在新任务中解决问题,但是这种能力依赖于违背 Bayes 最优估计并将 Gauss 先验分布中所有任务的能力。
Jun, 2023
研究注意力机制的神经网络 transformer 采用渐变流进行单个线性自注意层的训练,实现在新的预测任务中使用标记示例的测试提示时具有预测误差与测试提示分布上最佳线性预测器相竞争的能力,且在多种分布转换下具有鲁棒性。
Jun, 2023
本文研究了大型语言模型展示的 “上下文学习” 现象,并解释了预训练的 transformer 模型如何在合理的假设下执行上下文学习。我们推出了一种机制,使得 transformer 模型能够正确划分上下文,推断出稀疏线性回归假说,并应用此假说进行预测,在该学习框架中的样本复杂度保证。
May, 2023
通过理论分析,我们首次探讨了具有非线性自注意力和非线性 MLP 的 Transformer 模型的训练动态和 ICL 泛化能力,重点关注一组二分类任务,研究了各种因素对 ICL 泛化性能的影响,探讨了不同组件对 ICL 性能的贡献,并首次理论分析了模型修剪对 ICL 性能的影响,证明合适的基于大小的修剪可以在降低推理成本的同时对 ICL 产生最小影响,并通过数值实验验证了这些理论结果。
Feb, 2024
本文提供了建立在 transformer 结构上的神经序列模型的全面统计理论,阐述其在上下文数据分布中能够实现一类广泛的标准机器学习算法,基于上下文梯度下降机制的实现,以及不同算法之间的自适应选择。
Jun, 2023
在这项研究中,我们研究了 Transformer 模型,特别是大型语言模型(LLMs),它们具有在上下文中学习的显著能力,即在未见过的输入 - 输出示例的提示下执行新任务,而无需任何显式的模型训练。我们的实证结果显示变压器在选择无监督模型和在上下文中学习不同任务家族方面表现出近乎最优的能力,但当面对超出预训练数据领域的任务或功能时,我们展示了变压器的各种失败模式和其泛化能力的退化,即使是简单的外推任务也是如此。总的来说,我们的结果强调了高容量序列模型令人印象深刻的上下文学习能力可能与其预训练数据组合的覆盖范围更紧密相关,而不是创造基本泛化能力的归纳偏差。
Nov, 2023
对于大型自回归模型,如 Transformer,它们可以通过上下文学习 (即 ICL) 在不学习新权重的情况下解决任务,从而提供了高效解决新任务的方法。本文系统地研究了明确推断任务潜变量的效果,并发现与标准 Transformer 相比,在任务相关潜变量方面存在很少可辨别的差异,倾向于任务相关潜变量并不能普遍提高超出分布的性能;研究还发现,虽然瓶颈层可以有效地从上下文中提取潜在的任务变量,但下游处理很难利用它们进行稳健的预测。这项研究突显了 Transformer 在实现结构化的上下文学习解决方案方面的固有局限性,并表明虽然推断正确的潜变量有助于解释性,但对于解决这个问题来说并不足够。
May, 2024
本文研究了 Transformer 在线性回归任务上的训练,考虑了条件期望和条件方差的双目标预测任务,提供了不确定性量化目标,并揭示了训练 Transformer 接近贝叶斯最优的理论性质,以及在处理任务转移时表现不同于贝叶斯推断的能力。
May, 2024
通过研究大型语言模型,本文提出 Large language models 可以在面对语境示例时模拟核回归算法,并证明了在 Context prompts 上的贝叶斯推理可以被当作大样本上的核回归,并通过实证研究发现,LLMs 中的注意力和隐藏特征与核回归的行为相匹配,这些为 ICL 领域中观察到的多种现象提供了见解。
May, 2023