大型语言模型中的上下文学习是否贝叶斯？一种鞅的视角

ICMLJun, 2024

大型语言模型中的上下文学习是否贝叶斯？一种鞅的视角

Is In-Context Learning in Large Language Models Bayesian? A Martingale Perspective

Fabian Falck, Ziyu Wang, Chris Holmes

TL;DR在这项工作中，我们通过鞅属性从一个新的角度分析了大语言模型（LLM）的背景学习（ICL）是否可以视为贝叶斯推断。我们提出了鞅属性作为满足交换数据的贝叶斯学习系统的基本要求，并且证明了它在可信的、安全关键系统中具有重要性，可以提供一个有原则的、分解的不确定性概念。我们推导了必须满足的可操作检查项，并提供了理论和测试统计学来验证鞅属性的满足。同时，我们还检验了当观测到更多数据时，LLM 中的不确定性是否按照贝叶斯学习的预期减少。通过三个实验，我们提供了违反鞅属性和不符合贝叶斯不确定性缩放行为的证据，从而证明了 ICL 不是贝叶斯的假设。

Abstract

in-context learning (ICL) has emerged as a particularly remarkable characteristic of large language models (LLM): given a pretrained LLM and an observed dataset, LLMs can make predictions for new data points from

in-context learning large language models martingale property uncertainty bayesian inference

发现论文，激发创造

基于核回归的大语言模型上下文学习解析

通过研究大型语言模型，本文提出 Large language models 可以在面对语境示例时模拟核回归算法，并证明了在 Context prompts 上的贝叶斯推理可以被当作大样本上的核回归，并通过实证研究发现，LLMs 中的注意力和隐藏特征与核回归的行为相匹配，这些为 ICL 领域中观察到的多种现象提供了见解。

May, 2023

由标签分布指导的上下文示例排序

通过优化问题，研究通过预训练语言模型的上下文学习中的示例排序，以提高文本分类的准确性和选择更好的上下文示例。

Feb, 2024

探究上下文学习行为：与监督学习的比较

大型语言模型（LLMs）在上下文学习（ICL）方面展示了显着的能力，在没有明确预训练的情况下，仅通过少量的训练示例学习新任务。然而，尽管 LLMs 获得了成功，对于 ICL 如何从给定的提示中学习知识却知之甚少。在本文中，为了对 ICL 的学习行为有所了解，我们通过 ICL 和监督学习 (SL) 分别使用相同的演示示例训练相同的 LLMs，并研究它们在一系列分类任务中在标签扰动（即嘈杂标签和标签不平衡）下的表现。通过广泛的实验证明，我们首先发现黄金标签对下游上下文性能有显著影响，尤其是对于大型语言模型；然而，对于所有模型大小，不平衡标签对 ICL 的影响较小。其次，通过与 SL 进行比较，我们实证表明 ICL 对标签扰动的敏感性较低，并且随着模型大小的增加，ICL 逐渐获得与 SL 相当的性能。

Jul, 2023

面向上下文学习的何以及如何学习？贝叶斯模型平均、参数化和泛化

本文对 In-Context Learning (ICL) 的学习器类型、性能度量、误差率以及 Transformer 架构和 ICL 的关系进行了全面深入的研究，初步证明 ICL 隐含地实现了贝叶斯模型平均算法并受注意机制参数化，同时建立 ICL 遗憾、近似和泛化误差的界限，从而加深了我们对现代语言模型的关键方面的认识。

May, 2023

MT 中 LLM 的上下文学习能力的实证分析

探讨了大型语言模型在上下文学习中的能力，并研究了上下文演示的不同方面对机器翻译任务的影响。观察到不同模型家族对扰动示例呈现不同的行为，表明上下文学习的鲁棒性可能受到多种因素的影响。需要进一步研究来全面了解这些因素。

Jan, 2024

多标签文本分类的上下文学习

利用预训练的密集检索模型，我们在有限样本设置中的常见意图分类数据集上，以及特定情况下的细粒度情感分类中，优于微调性能。通过多个实验，我们分析了模型对于上下文示例和不同模型规模的利用情况，并展示了在不同领域中需要不同程度上下文示例的相似性、类名的语义内容和示例与标签之间的正确对应。

Sep, 2023

关于现场学习的调查

本文概述了大型语言模型的新范式 —— 上下文学习，并探讨了训练策略和演示设计策略等高级技术，以及上下文学习所面临的挑战和未来方向。

Dec, 2022

大语言模型中上下文学习的不确定性分解和量化

我们的研究探讨了与上下文学习相关的大型语言模型的预测不确定性，强调这种不确定性可能来自提供的示范（先验不确定性）和模型配置的歧义（后验不确定性），提出了一种新的公式和相应的估计方法来量化两种类型的不确定性，以插入和使用的方式无监督地理解上下文学习的预测。广泛的实验证明了该分解的有效性。

Feb, 2024

从数据生成的角度探究应境学习的机制

通过数据生成的视角重新解释最近的努力，并展示了流行技术解决方案的潜在更广泛的用途，接近了一个系统的角度。对于概念定义，我们严格采用技能学习和技能识别的术语。我们还对不同解决方案的优点和缺点进行了全面研究，并突显了在数据生成视角下它们之间的统一性，为未来研究结合不同研究线路的优势建立了技术基础。

Feb, 2024

多样情境下的多次学习

大型语言模型在少样本上下文学习方面表现出色，通过在推断时从上下文中提供的少量示例进行学习，无需任何权重更新。新的扩展上下文窗口使我们能够研究在上下文中使用数百或数千个示例进行学习的多样本学习方法。从少样本到多样本，我们观察到在各种生成性和判别性任务中取得了显著的性能提升。然而，多样本学习在可用的人类生成示例方面存在瓶颈。为了缓解这一限制，我们探索了两种新的设置：增强和无监督的多样本学习方法。增强多样本学习方法使用模型生成的思考链替代人类示例。无监督多样本学习方法则完全取消了提示信息中的理由，并仅通过领域特定问题对模型进行提示。我们发现，增强和无监督多样本学习方法在多样本学习中非常有效，特别是在复杂推理任务中。最后，我们证明与少样本学习不同，多样本学习可以有效地覆盖预训练偏差，并学习具有数值输入的高维函数。我们的分析还揭示了下一个标记预测损失作为下游上下文学习性能指标的局限性。

Apr, 2024