学习理解：模块化算术任务中上下文学习和技能组合的出现

Jun, 2024

学习理解：模块化算术任务中上下文学习和技能组合的出现

Learning to grok: Emergence of in-context learning and skill composition in modular arithmetic tasks

Tianyu He, Darshil Doshi, Aritra Das, Andrey Gromov

TL;DR通过研究模块化算术任务中上下文学习和技能组合的出现，我们证明了 GPT-style transformer 模型从分布内到分布外泛化的转变，也发现了最小的能够进行分布外泛化的模型需要两个 transformer 块。

Abstract

large language models can solve tasks that were not present in the training set. This capability is believed to be due to in-context learning and skill composition. In this work, we study the emergence of

large language models in-context learning skill composition modular arithmetic tasks out-of-distribution generalization

发现论文，激发创造

小型 Transformer 的算术教学

在不预训练的情况下，通过对训练数据进行简单的格式更改并使用包含中间步骤结果的思维链式数据进行训练，即便在完全缺乏预训练的情况下，也可以显著提高算术能力的准确性、样本复杂性和收敛速度。

Jul, 2023

一种基于上下文的突现学习理论：隐式结构归纳

该研究探讨了大型语言模型的上下文学习能力及其理论机制，提出了基于自然语言数据中组合操作的信息理论边界，并从语言学角度验证了模型输出中间步骤的成功经验。研究表明，在缩放参数和数据并提示输出中间步骤时，模型能在多项任务中进行有效的上下文学习，这种学习得到的支持与其输入的组成结构有关。

Mar, 2023

深入探究上下文学习在分布偏移下的应用

通过在不断变化的数据分布下比较转换器和基于集合的 Multi-Layer 感知机的表现，研究了上下文学习的一些普遍限制，发现转换器模型更准确地模拟了最小二乘法的性能，并且对于轻微的分布移位更具有鲁棒性，但在严重分布移位的情况下，两个模型的上下文学习能力都会减弱。

May, 2023

通过学习离散函数来理解 Transformer 和 LLM 中的上下文学习

为了理解上下文学习现象，最近的研究采用了一个简化的实验框架，并证明了 Transformer 可以学习各种实值函数的基于梯度的学习算法。然而，Transformer 在实现学习算法方面的局限性以及其学习其他形式算法的能力尚不明确，而这些能力在基于注意力模型中是否有限制也不清楚。此外，还需要进一步研究这些简化设置所得出的见解是否可以推广到预训练的大语言模型（LLMs）。在本研究中，我们通过以下方式来一步步回答这些问题：（a）在一个包含各种布尔函数类的测试集上，我们发现 Transformer 在更简单的任务上几乎可以与最佳学习算法相匹配，但在更复杂的任务上性能下降。此外，我们发现某些无注意力模型在一系列任务上与 Transformer 表现（几乎）一致；（b）当提供一个教学序列，即一组通过示例唯一标识一个函数类的示例时，我们发现 Transformer 学习起来更加高效。有趣的是，我们的结果表明，Transformer 可以学习实现两个不同的算法来解决一个任务，并且可以根据上下文示例的顺序自适应地选择更加高效的算法；（c）最后，我们展示了 LLMs（如 LLaMA-2、GPT-4）可以与最近邻基线在保证不在其训练集中的预测任务上竞争。

Oct, 2023

探索上下文学习与组合泛化之间的关系

通过在不同顺序的训练实例和打乱实例标签中训练模型，以测试强迫模型进行上下文学习对组成概括的促进作用的假设，研究表明，以这种方式训练的模型在组成概括方面确实显示出改进，证明了上下文学习问题作为归纳偏差用于概括的有效性。

Mar, 2024

上下文学习的发展景观

我们展示出，在 transformers 上进行语言建模或线性回归任务训练时，出现了离散的发展阶段中的上下文学习，并引入了两种方法来检测分隔这些阶段的里程碑，通过探测参数空间和函数空间中种群损失的几何结构。我们使用一系列行为和结构度量来研究这些新方法揭示的阶段，以确定它们的有效性。

Feb, 2024

变压器语言模型在算法学习上的限制

我们分析了 Transformer 语言模型在学习离散算法方面的能力，通过引入两个需要组合多个离散子任务的新任务，我们在从头开始训练 LLaMA 模型以及 GPT-4 和 Gemini 上引导训练时，度量了学习的基本组合。我们观察到，最先进的 Transformer 语言模型的组合能力非常有限，而且在样本上的规模效果比为新的算法组合重新学习所有子任务要差。我们还提出了一个复杂性理论的定理，证明了在记忆前馈模型上的梯度下降可能在数据效率上指数级低效。

Feb, 2024

关于上下文学习的组成泛化差距

本研究探讨了预训练大型生成语言模型在语义解析任务中在上下文学习时的分布内和分布外表现差异以及模型规模的影响，结果显示随着模型规模的增加，相对泛化差距逐渐减小。

Nov, 2022

变换器在语境中能学到什么？简单函数类的案例研究

该文提出一种新的模型训练方法，称为 in-context learning，可以使 transformer 模型通过给定的输入输出对，学习出新的输入对应的输出，而无需更新参数。研究者们在极小的数据集上训练模型进行线性函数的 in-context learning，发现该模型即使出现了数据分布的改变，也能够对复杂函数进行有效和快速的学习。

Aug, 2022

通过贝叶斯透镜进行上下文学习

本文通过多种线性和非线性函数类的实证观察，延伸了之前的研究，表明了 transformers 的理想学习者表现，并探究了其在 Bayesian 模型和多任务环境下的应用，还以傅里叶级数为例研究了其归纳偏差。

Jun, 2023