数据分布特征驱动变压器模型中的上下文学习

Apr, 2022

数据分布特征驱动变压器模型中的上下文学习

Data Distributional Properties Drive Emergent In-Context Learning in Transformers

Stephanie C.Y. Chan, Adam Santoro, Andrew K. Lampinen, Jane X. Wang, Aaditya Singh...

TL;DR研究了 Transformer-based 模型在 in-context few-shot learning 方面的行为和处理方式，发现训练数据的分布特性是这种行为的关键，特别是数据具有大量稀有类别和爆发性分布这两个属性时；而这些属性往往是自然数据所具有的。此外发现在特定训练数据下使用 Zipfian distribution 可以支持 Transformer-based 模型同时实现 in-context 和 in-weights learning。

Abstract

Large transformer-based models are able to perform in-context few-shot learning, without being explicitly trained for it. This observation raises the question: what aspects of the training regime lead to this emergent behavior? Here, we show that this behavior is driven by the distribu

transformer-based models in-context few-shot learning training data naturalistic data zipfian distribution

发现论文，激发创造

一个基于机制的数据依赖和突发学习的在情境分类任务的基础

Transformer 模型表现出上下文学习：基于输入序列中的示例，准确预测对新查询的响应。研究讨论了训练数据分布和架构方面哪些因素支持上下文学习和传统的查询 - 输出关系学习。研究还提出了在简化数据集上训练的最小关注网络模型，阐明了上下文学习受到诱导头突然出现的驱动。该研究建议，基于注意力的网络的明显转折是由于实现上下文学习所必需的特定多层操作链引起的。

Dec, 2023

深入探究上下文学习在分布偏移下的应用

通过在不断变化的数据分布下比较转换器和基于集合的 Multi-Layer 感知机的表现，研究了上下文学习的一些普遍限制，发现转换器模型更准确地模拟了最小二乘法的性能，并且对于轻微的分布移位更具有鲁棒性，但在严重分布移位的情况下，两个模型的上下文学习能力都会减弱。

May, 2023

一种基于上下文的突现学习理论：隐式结构归纳

该研究探讨了大型语言模型的上下文学习能力及其理论机制，提出了基于自然语言数据中组合操作的信息理论边界，并从语言学角度验证了模型输出中间步骤的成功经验。研究表明，在缩放参数和数据并提示输出中间步骤时，模型能在多项任务中进行有效的上下文学习，这种学习得到的支持与其输入的组成结构有关。

Mar, 2023

变压器中新出现的情境学习的瞬时性质

transformer 神经网络虽然没有明确训练用于上下文学习，但其仍具备令人惊讶的上下文学习能力。然而，研究发现 ICL 在训练过程中常常是短暂的，且 ICL 和 in-weights learning 之间存在竞争关系，使用 L2 正则化可能提供更持久的 ICL。

Nov, 2023

通过贝叶斯透镜进行上下文学习

本文通过多种线性和非线性函数类的实证观察，延伸了之前的研究，表明了 transformers 的理想学习者表现，并探究了其在 Bayesian 模型和多任务环境下的应用，还以傅里叶级数为例研究了其归纳偏差。

Jun, 2023

上下文收敛的 Transformer 模型

通过梯度下降训练的具有 softmax 注意力机制的单层 transformer 在学习线性函数类的上下文学习动态方面取得了进展，并对平衡和不平衡特征数据进行了分析，证明了其收敛性和预测误差。

Oct, 2023

应对新的顺序决策任务的泛化学习

使用离线数据集，通过训练大型多样化模型，能够在只有少量示范数据的情况下，使自主代理器在新的任务上进行上下文学习。

Dec, 2023

变换器在语境中能学到什么？简单函数类的案例研究

该文提出一种新的模型训练方法，称为 in-context learning，可以使 transformer 模型通过给定的输入输出对，学习出新的输入对应的输出，而无需更新参数。研究者们在极小的数据集上训练模型进行线性函数的 in-context learning，发现该模型即使出现了数据分布的改变，也能够对复杂函数进行有效和快速的学习。

Aug, 2022

变形金刚的诞生：记忆视角

本研究使用合成机制来考察 transformers 在处理全局信息与上下文信息时的权衡，发现这些模型相对较快地学习了全局信息，但对于上下文信息中的二元组的识别则较慢，同时探究了权重矩阵作为联想记忆的作用以及梯度如何使其在训练时进行学习的理论机制，同时研究了数据分布属性的作用。

Jun, 2023

上下文学习的发展景观

我们展示出，在 transformers 上进行语言建模或线性回归任务训练时，出现了离散的发展阶段中的上下文学习，并引入了两种方法来检测分隔这些阶段的里程碑，通过探测参数空间和函数空间中种群损失的几何结构。我们使用一系列行为和结构度量来研究这些新方法揭示的阶段，以确定它们的有效性。

Feb, 2024