上下文学习作为隐式贝叶斯推断的解释

ICLRNov, 2021

上下文学习作为隐式贝叶斯推断的解释

An Explanation of In-context Learning as Implicit Bayesian Inference

Sang Michael Xie, Aditi Raghunathan, Percy Liang, Tengyu Ma

TL;DR本研究探讨了大语言模型中的上下文学习现象，并证明了基于长期相关性的预训练可以促进上下文学习。通过人工合成数据集，实验结果表明了模型规模对上下文学习的影响，以及例子顺序和零样本学习等现象。

Abstract

large language models (LMs) such as GPT-3 have the surprising ability to do in-context learning, where the model learns to do a downstream task simply by conditioning on a prompt consisting of input-output exampl

large language models in-context learning pretraining latent concept transformer

发现论文，激发创造

一种基于上下文的突现学习理论：隐式结构归纳

该研究探讨了大型语言模型的上下文学习能力及其理论机制，提出了基于自然语言数据中组合操作的信息理论边界，并从语言学角度验证了模型输出中间步骤的成功经验。研究表明，在缩放参数和数据并提示输出中间步骤时，模型能在多项任务中进行有效的上下文学习，这种学习得到的支持与其输入的组成结构有关。

Mar, 2023

大型语言模型隐含主题模型：解释和寻找上下文学习的良好示范

本文从贝叶斯的角度出发，将大型语言模型视作主题模型，提出了一种从标注数据中选择最佳示范的算法，并在实际数据集中证明相对于随机选择基线，平均有 12.5% 的显著改进。研究表明，大型语言模型从示范中隐式地推断出潜在的概念变量。

Jan, 2023

上下文预训练：超越文档边界的语言建模

大型语言模型通过 In-Context 预训练，在处理涉及相关文档的任务时，能够显著提高性能，包括复杂的语境推理、长文本推理、检索增强等。

Oct, 2023

通过贝叶斯透镜进行上下文学习

本文通过多种线性和非线性函数类的实证观察，延伸了之前的研究，表明了 transformers 的理想学习者表现，并探究了其在 Bayesian 模型和多任务环境下的应用，还以傅里叶级数为例研究了其归纳偏差。

Jun, 2023

学习检索上下文学习提示

本文提出了一种有效的方法，利用标注数据和语言模型（LM）检索 in-context learning 的提示，训练稠密的检索器并在三个序列到序列任务中发现它明显优于之前的工作和多个基线。

Dec, 2021

上下文学习的可学习性

本研究提出了一个基于 PAC 理论的框架来探究上下文学习及其可学性，发现在语言模型的参数保持不变的情况下，通过将下游任务的训练示例包含在其输入中，可以调整模型以执行各种下游自然语言处理任务，预训练分布是潜在任务的混合时，这些任务可以通过上下文学习有效地学习，这种学习更多地是关于识别任务而不是学习任务，并希望这一研究框架为深入理解上下文学习的新学习范式打下基础。

Mar, 2023

大型语言模型中的元上下文学习

本文介绍了大型语言模型在上下文学习中的递归学习能力，即元上下文学习。作者以两个理想化的领域为例，展示了元上下文学习是如何适应性地重塑大型语言模型对预期任务的先验知识，并修改其上下文学习策略。最后，作者通过真实世界回归问题的基准测试发现，元上下文学习与传统学习算法相比具有有竞争力的性能。通过元上下文学习而不是传统的 finetuning 来纯粹地适应大型语言模型应用的环境，可以提高大家对上下文学习的理解，为大型语言模型的应用打下基础。

May, 2023

基于核回归的大语言模型上下文学习解析

通过研究大型语言模型，本文提出 Large language models 可以在面对语境示例时模拟核回归算法，并证明了在 Context prompts 上的贝叶斯推理可以被当作大样本上的核回归，并通过实证研究发现，LLMs 中的注意力和隐藏特征与核回归的行为相匹配，这些为 ICL 领域中观察到的多种现象提供了见解。

May, 2023

重新思考演示的作用：何为情境学习的关键？

本研究分析显示：大型语言模型不需要准确的演示，而是通过演示提供的标签空间、输入文本的分布和序列的整体格式等方面驱动任务表现的提高。因此，揭示了语境学习的原理和作用方式，同时提出了新的问题，即能否仅仅通过推理来学习大型语言模型的更多内容。

Feb, 2022

在上下文中学习的同时保持连贯性：使用大型语言模型进行即时机器翻译的研究

本文探讨了在上下文中学习（in-context learning）的概念，将其视为维持与上下文信息相一致的生成任务。通过实验表明，长期一致性可以作为下游翻译任务表现优异的良好指标，并表明在上下文机器翻译可以实现随时自适应（on-the-fly adaptation）的效果。

May, 2023