一个基于机制的数据依赖和突发学习的在情境分类任务的基础
本文介绍了 in-context learning (ICL) 的概念和算法及其在 multitask learning 领域的应用,提出了使用 transformer model 的方式,详细探讨了 ICL 在 i.i.d. 和动态数据下的泛化界限及其稳定性,以及任务复杂度和 MTL 任务数量对转移学习风险的影响。最后,提出了数值评估,并验证了理论预测。
Jan, 2023
研究了 Transformer-based 模型在 in-context few-shot learning 方面的行为和处理方式,发现训练数据的分布特性是这种行为的关键,特别是数据具有大量稀有类别和爆发性分布这两个属性时;而这些属性往往是自然数据所具有的。此外发现在特定训练数据下使用 Zipfian distribution 可以支持 Transformer-based 模型同时实现 in-context 和 in-weights learning。
Apr, 2022
transformer 神经网络虽然没有明确训练用于上下文学习,但其仍具备令人惊讶的上下文学习能力。然而,研究发现 ICL 在训练过程中常常是短暂的,且 ICL 和 in-weights learning 之间存在竞争关系,使用 L2 正则化可能提供更持久的 ICL。
Nov, 2023
Transformers 在无需显式先前训练的情况下,基于输入示例学习和执行任务的能力,也称为上下文学习(ICL),是其成功的基础。本研究提供了关于所需样本复杂性、预训练任务多样性和上下文长度对成功 ICL 的明确答案,采用线性关注在 ICL 线性回归任务的可解模型中推导出了学习曲线的锐利渐近线。通过实验证明了随着先前训练示例数量增加,学习曲线具有双峰,且模型的行为在低和高任务多样性之间出现相变:在低多样性情况下,模型趋向于记忆训练任务,而在高多样性情况下,它实现了真正的上下文学习并在预训练任务范围之外进行泛化。这些理论洞见通过线性关注和完全非线性 Transformer 架构的实验进行了经验证实。
May, 2024
本文提供了建立在 transformer 结构上的神经序列模型的全面统计理论,阐述其在上下文数据分布中能够实现一类广泛的标准机器学习算法,基于上下文梯度下降机制的实现,以及不同算法之间的自适应选择。
Jun, 2023
大型语言模型具有模仿输入模式的能力。本文引入了一个简单的马尔可夫链序列建模任务,以研究这种上下文学习能力的形成。我们通过训练变压器模型来计算给定上下文的准确下一个标记的概率。通过实证和理论研究,本文揭示了成功学习是由变压器层之间的交互作用所造成的,并发现简单的单个标记统计解可能会延迟最终的双标记解的形成。我们还考虑了马尔可夫链的先验分布以及将上下文学习拓展到大于 2 的 n 元组。
Feb, 2024
通过引入概率模型,我们对上下文学习的双重工作模式进行了解释,并分析了线性函数的上下文学习行为,展示了一种可能的解释,即通过更多的上下文示例,任务学习将产生作用并减少风险。
Feb, 2024
通过梯度下降训练的具有 softmax 注意力机制的单层 transformer 在学习线性函数类的上下文学习动态方面取得了进展,并对平衡和不平衡特征数据进行了分析,证明了其收敛性和预测误差。
Oct, 2023
本文从六个方面提出了假设,指出 “感应头” 可能构成了大型变换器模型中大部分 “上下文学习” 的机制。同时,通过强因果证据和相关性证据,证明了这种感应头可能是任何大小的变压器模型中一般情况下上下文学习的来源。
Sep, 2022
本文研究了大型语言模型展示的 “上下文学习” 现象,并解释了预训练的 transformer 模型如何在合理的假设下执行上下文学习。我们推出了一种机制,使得 transformer 模型能够正确划分上下文,推断出稀疏线性回归假说,并应用此假说进行预测,在该学习框架中的样本复杂度保证。
May, 2023