上下文学习的信息论分析

Jan, 2024

An Information-Theoretic Analysis of In-Context Learning

Hong Jun Jeon, Jason D. Lee, Qi Lei, Benjamin Van Roy

TL;DR通过引入新的信息论工具，我们在序列元学习上建立了一种优雅且非常通用的误差分解方法，分为三个组成部分：不可降低误差、元学习误差和任务内误差。我们应用这些工具对基于变压器的上下文学习进行分析，阐明了误差在训练序列数量和序列长度上的衰减规律。这一结果非常通用，并且避免了以往结果中对序列长度衰减进行人为混合时间假设。

Abstract

Previous theoretical results pertaining to meta-learning on sequences build on contrived assumptions and are somewhat convoluted. We introduce new information-theoretic tools that lead to an elegant and very gene

meta-learning information-theoretic tools decomposition of error intra-task error transformers

发现论文，激发创造

大型语言模型中的元上下文学习

本文介绍了大型语言模型在上下文学习中的递归学习能力，即元上下文学习。作者以两个理想化的领域为例，展示了元上下文学习是如何适应性地重塑大型语言模型对预期任务的先验知识，并修改其上下文学习策略。最后，作者通过真实世界回归问题的基准测试发现，元上下文学习与传统学习算法相比具有有竞争力的性能。通过元上下文学习而不是传统的 finetuning 来纯粹地适应大型语言模型应用的环境，可以提高大家对上下文学习的理解，为大型语言模型的应用打下基础。

May, 2023

元学习变形金刚进行上下文通用学习

本文研究了通过 Meta-learning 或者说 Learning-to-learn 的方式来训练黑盒子模型成为通用的上下文学习算法，同时发现相比于标准模型，黑盒子模型训练时的瓶颈不是参数数量而是可以访问的状态大小。此外，本文提出了一些实际操作手段，如改变训练集分布来改善通用学习算法的 Meta-training 和 Meta-generalization。

Dec, 2022

一个基于机制的数据依赖和突发学习的在情境分类任务的基础

Transformer 模型表现出上下文学习：基于输入序列中的示例，准确预测对新查询的响应。研究讨论了训练数据分布和架构方面哪些因素支持上下文学习和传统的查询 - 输出关系学习。研究还提出了在简化数据集上训练的最小关注网络模型，阐明了上下文学习受到诱导头突然出现的驱动。该研究建议，基于注意力的网络的明显转折是由于实现上下文学习所必需的特定多层操作链引起的。

Dec, 2023

通过贝叶斯透镜进行上下文学习

本文通过多种线性和非线性函数类的实证观察，延伸了之前的研究，表明了 transformers 的理想学习者表现，并探究了其在 Bayesian 模型和多任务环境下的应用，还以傅里叶级数为例研究了其归纳偏差。

Jun, 2023

一种基于上下文的突现学习理论：隐式结构归纳

该研究探讨了大型语言模型的上下文学习能力及其理论机制，提出了基于自然语言数据中组合操作的信息理论边界，并从语言学角度验证了模型输出中间步骤的成功经验。研究表明，在缩放参数和数据并提示输出中间步骤时，模型能在多项任务中进行有效的上下文学习，这种学习得到的支持与其输入的组成结构有关。

Mar, 2023

上下文学习的发展景观

我们展示出，在 transformers 上进行语言建模或线性回归任务训练时，出现了离散的发展阶段中的上下文学习，并引入了两种方法来检测分隔这些阶段的里程碑，通过探测参数空间和函数空间中种群损失的几何结构。我们使用一系列行为和结构度量来研究这些新方法揭示的阶段，以确定它们的有效性。

Feb, 2024

神经网络中的元（脱离上下文）学习

通过合成实验，我们发现了被称为 meta-OCL 的现象，该现象使 LLMs 更容易 “内部化” 广泛有用的文本的语义内容，并在适当的情况下使用它。我们在合成计算机视觉环境中进一步证明了 meta-OCL，并提出了两个假设：一个依赖模型在其参数中存储知识的方式，另一个暗示基于梯度下降优化器的隐式梯度对齐偏差可能是其原因。最后，我们思考了我们的研究结果对未来人工智能系统能力的暗示，并讨论了潜在的风险。

Oct, 2023

模型无关系统辨识的上下文学习

传统的系统辨识方法采用给定的输入 / 输出序列和现有的物理知识估计未知动力系统的模型。本文提出了一种新的系统辨识方法，通过预训练一个元模型来隐式表示一个类别的动力系统的主要特征，并利用 Transformer 架构实现单步预测和多步仿真任务，为系统辨识研究开辟了新的方向。

Aug, 2023

什么是上下文学习算法？线性模型的研究调查

本文通过三类证据说明了基于 transformers 的 in-context learners 在其激活中编码了较小的模型，并更新这些隐式模型为更加精确的预测器；而且，这些学习器学习算法的特征与最佳实践算法相似，这意味着 in-context learners 可以发现标准的估计算法，如梯度下降，闭式 Ridge 回归和最小二乘回归，实验结果验证了这个假设。

Nov, 2022

概念感知训练提高语言模型的上下文学习能力

文中介绍了一种名为 CoAT 的优化方法，利用模拟训练数据来帮助语言模型更好的利用其背景知识。使用 CoAT 训练的 In-context learners 性能表现良好，达到了在多任务训练中更大规模模型的性能水平。

May, 2023