一种基于上下文的突现学习理论：隐式结构归纳

Mar, 2023

一种基于上下文的突现学习理论：隐式结构归纳

A Theory of Emergent In-Context Learning as Implicit Structure Induction

Michael Hahn, Navin Goyal

TL;DR该研究探讨了大型语言模型的上下文学习能力及其理论机制，提出了基于自然语言数据中组合操作的信息理论边界，并从语言学角度验证了模型输出中间步骤的成功经验。研究表明，在缩放参数和数据并提示输出中间步骤时，模型能在多项任务中进行有效的上下文学习，这种学习得到的支持与其输入的组成结构有关。

Abstract

Scaling large language models (LLMs) leads to an emergent capacity to learn in-context from example demonstrations. Despite progress, theoretical understanding of this phenomenon remains limited. We argue that in-context learning relies on recombination of compositional operations foun

large language models in-context learning compositional structure information-theoretic bound intermediate steps

发现论文，激发创造

上下文学习作为隐式贝叶斯推断的解释

本研究探讨了大语言模型中的上下文学习现象，并证明了基于长期相关性的预训练可以促进上下文学习。通过人工合成数据集，实验结果表明了模型规模对上下文学习的影响，以及例子顺序和零样本学习等现象。

Nov, 2021

语言模型在上下文中学习什么？结构任务假设

本文通过一系列来自常见文本分类任务的实验，实证地探索了解释大型语言模型（LLMs）在上下文中学习的三种假设，证伪了前两种假设，并提供了支持最后一种假设的证据。结果表明，LLMs 能够通过组合在预训练期间学习的任务来上下文中学习一个新任务。

Jun, 2024

上下文学习的可学习性

本研究提出了一个基于 PAC 理论的框架来探究上下文学习及其可学性，发现在语言模型的参数保持不变的情况下，通过将下游任务的训练示例包含在其输入中，可以调整模型以执行各种下游自然语言处理任务，预训练分布是潜在任务的混合时，这些任务可以通过上下文学习有效地学习，这种学习更多地是关于识别任务而不是学习任务，并希望这一研究框架为深入理解上下文学习的新学习范式打下基础。

Mar, 2023

大型语言模型中的元上下文学习

本文介绍了大型语言模型在上下文学习中的递归学习能力，即元上下文学习。作者以两个理想化的领域为例，展示了元上下文学习是如何适应性地重塑大型语言模型对预期任务的先验知识，并修改其上下文学习策略。最后，作者通过真实世界回归问题的基准测试发现，元上下文学习与传统学习算法相比具有有竞争力的性能。通过元上下文学习而不是传统的 finetuning 来纯粹地适应大型语言模型应用的环境，可以提高大家对上下文学习的理解，为大型语言模型的应用打下基础。

May, 2023

背景下的学习表现具有普适性，但并非始终稳定：以语法为例

在本研究中，我们通过对语法敏感性的测试案例来研究通过上下文学习监督的大型语言模型的鲁棒性，并调查模型的预训练语料库组成和监督方法对模型变异性的影响。我们发现，相较于模型大小，模型在这一基本语言现象上的变异性更多地受到预训练语料库组成和监督方法的影响。同时，我们还发现，在代码上进行预训练的模型更好地推广，并在更大程度上受到思维链提示的益处。

Nov, 2023

关于共现、位置信息和噪音结构的作用：从无结构数据的训练中产生上下文学习

通过建模共现信息使用经典语言模型如连续词袋模型，我们理论上证明并实证验证了不监督训练对于上下文学习的产生方式，同时我们提出了一些 ICL 失败的情况并给出了理论解释。

May, 2024

探索上下文学习与组合泛化之间的关系

通过在不同顺序的训练实例和打乱实例标签中训练模型，以测试强迫模型进行上下文学习对组成概括的促进作用的假设，研究表明，以这种方式训练的模型在组成概括方面确实显示出改进，证明了上下文学习问题作为归纳偏差用于概括的有效性。

Mar, 2024

基于核回归的大语言模型上下文学习解析

通过研究大型语言模型，本文提出 Large language models 可以在面对语境示例时模拟核回归算法，并证明了在 Context prompts 上的贝叶斯推理可以被当作大样本上的核回归，并通过实证研究发现，LLMs 中的注意力和隐藏特征与核回归的行为相匹配，这些为 ICL 领域中观察到的多种现象提供了见解。

May, 2023

大型语言模型隐含主题模型：解释和寻找上下文学习的良好示范

本文从贝叶斯的角度出发，将大型语言模型视作主题模型，提出了一种从标注数据中选择最佳示范的算法，并在实际数据集中证明相对于随机选择基线，平均有 12.5% 的显著改进。研究表明，大型语言模型从示范中隐式地推断出潜在的概念变量。

Jan, 2023

大型语言模型中的突现能力是否只是针对上下文的学习？

通过一系列超过 1000 次实验，我们对包含 60 百万到 1750 亿参数范围内的 18 个模型进行了严格测试，在包括 22 个任务在内的全面任务集上提供了有力证据，表明新兴能力主要可以归因于上下文学习，并没有发现推理能力的出现，从而为我们对于观察到的能力背后的机制提供了宝贵的洞见，并缓解了对于它们使用的安全问题的担忧。

Sep, 2023