一个基于机制的数据依赖和突发学习的在情境分类任务的基础

Dec, 2023

一个基于机制的数据依赖和突发学习的在情境分类任务的基础

The mechanistic basis of data dependence and abrupt learning in an in-context classification task

Gautam Reddy

TL;DRTransformer 模型表现出上下文学习：基于输入序列中的示例，准确预测对新查询的响应。研究讨论了训练数据分布和架构方面哪些因素支持上下文学习和传统的查询 - 输出关系学习。研究还提出了在简化数据集上训练的最小关注网络模型，阐明了上下文学习受到诱导头突然出现的驱动。该研究建议，基于注意力的网络的明显转折是由于实现上下文学习所必需的特定多层操作链引起的。

Abstract

transformer models exhibit in-context learning: the ability to accurately predict the response to a novel query based on illustrative examples in the input sequence. →

transformer models in-context learning training data distribution attention-based network induction head

发现论文，激发创造

转换器作为算法：上下文学习中的泛化和稳定性

本文介绍了 in-context learning (ICL) 的概念和算法及其在 multitask learning 领域的应用，提出了使用 transformer model 的方式，详细探讨了 ICL 在 i.i.d. 和动态数据下的泛化界限及其稳定性，以及任务复杂度和 MTL 任务数量对转移学习风险的影响。最后，提出了数值评估，并验证了理论预测。

Jan, 2023

数据分布特征驱动变压器模型中的上下文学习

研究了 Transformer-based 模型在 in-context few-shot learning 方面的行为和处理方式，发现训练数据的分布特性是这种行为的关键，特别是数据具有大量稀有类别和爆发性分布这两个属性时；而这些属性往往是自然数据所具有的。此外发现在特定训练数据下使用 Zipfian distribution 可以支持 Transformer-based 模型同时实现 in-context 和 in-weights learning。

Apr, 2022

变压器中新出现的情境学习的瞬时性质

transformer 神经网络虽然没有明确训练用于上下文学习，但其仍具备令人惊讶的上下文学习能力。然而，研究发现 ICL 在训练过程中常常是短暂的，且 ICL 和 in-weights learning 之间存在竞争关系，使用 L2 正则化可能提供更持久的 ICL。

Nov, 2023

线性注意力下上下文学习的渐近理论

Transformers 在无需显式先前训练的情况下，基于输入示例学习和执行任务的能力，也称为上下文学习（ICL），是其成功的基础。本研究提供了关于所需样本复杂性、预训练任务多样性和上下文长度对成功 ICL 的明确答案，采用线性关注在 ICL 线性回归任务的可解模型中推导出了学习曲线的锐利渐近线。通过实验证明了随着先前训练示例数量增加，学习曲线具有双峰，且模型的行为在低和高任务多样性之间出现相变：在低多样性情况下，模型趋向于记忆训练任务，而在高多样性情况下，它实现了真正的上下文学习并在预训练任务范围之外进行泛化。这些理论洞见通过线性关注和完全非线性 Transformer 架构的实验进行了经验证实。

May, 2024

Transformers 作为统计学家：具有证明的上下文学习和上下文算法选择

本文提供了建立在 transformer 结构上的神经序列模型的全面统计理论，阐述其在上下文数据分布中能够实现一类广泛的标准机器学习算法，基于上下文梯度下降机制的实现，以及不同算法之间的自适应选择。

Jun, 2023

统计归纳头的演进：上下文学习的马尔科夫链

大型语言模型具有模仿输入模式的能力。本文引入了一个简单的马尔可夫链序列建模任务，以研究这种上下文学习能力的形成。我们通过训练变压器模型来计算给定上下文的准确下一个标记的概率。通过实证和理论研究，本文揭示了成功学习是由变压器层之间的交互作用所造成的，并发现简单的单个标记统计解可能会延迟最终的双标记解的形成。我们还考虑了马尔可夫链的先验分布以及将上下文学习拓展到大于 2 的 n 元组。

Feb, 2024

上下文学习的双重操作模式

通过引入概率模型，我们对上下文学习的双重工作模式进行了解释，并分析了线性函数的上下文学习行为，展示了一种可能的解释，即通过更多的上下文示例，任务学习将产生作用并减少风险。

Feb, 2024

上下文收敛的 Transformer 模型

通过梯度下降训练的具有 softmax 注意力机制的单层 transformer 在学习线性函数类的上下文学习动态方面取得了进展，并对平衡和不平衡特征数据进行了分析，证明了其收敛性和预测误差。

Oct, 2023

上下文学习和归纳头

本文从六个方面提出了假设，指出 “感应头” 可能构成了大型变换器模型中大部分 “上下文学习” 的机制。同时，通过强因果证据和相关性证据，证明了这种感应头可能是任何大小的变压器模型中一般情况下上下文学习的来源。

Sep, 2022

用于稀疏检索任务的样本高效上下文学习机制

本文研究了大型语言模型展示的 “上下文学习” 现象，并解释了预训练的 transformer 模型如何在合理的假设下执行上下文学习。我们推出了一种机制，使得 transformer 模型能够正确划分上下文，推断出稀疏线性回归假说，并应用此假说进行预测，在该学习框架中的样本复杂度保证。

May, 2023