预训练与上下文学习：德·费内蒂式贝叶斯推断

Aug, 2024

预训练与上下文学习：德·费内蒂式贝叶斯推断

Pre-training and in-context learning IS Bayesian inference a la De Finetti

Naimeng Ye, Hanming Yang, Andrew Siah, Hongseok Namkoong

TL;DR本研究解决了智能系统在不确定性评估方面的长期目标，通过德·费内蒂的贝叶斯推理视角，探讨预训练序列模型能够推理的潜在概念。文章提出的关键见解是，通过在序列模型架构中引入交换性编码，可以将上下文学习扩展至显式统计推断，从而在不确定性量化的下游任务中显著提升性能。

Abstract

Accurately gauging uncertainty on the underlying environment is a longstanding goal of intelligent systems. We characterize which latent concepts pre-trained Sequence models are naturally able to reason with. We go back to De Finetti's predictive view of Bayesian reasoning: instead of

发现论文，激发创造

上下文学习作为隐式贝叶斯推断的解释

本研究探讨了大语言模型中的上下文学习现象，并证明了基于长期相关性的预训练可以促进上下文学习。通过人工合成数据集，实验结果表明了模型规模对上下文学习的影响，以及例子顺序和零样本学习等现象。

Nov, 2021

大型语言模型隐含主题模型：解释和寻找上下文学习的良好示范

本文从贝叶斯的角度出发，将大型语言模型视作主题模型，提出了一种从标注数据中选择最佳示范的算法，并在实际数据集中证明相对于随机选择基线，平均有12.5%的显著改进。研究表明，大型语言模型从示范中隐式地推断出潜在的概念变量。

Jan, 2023

面向上下文学习的何以及如何学习？贝叶斯模型平均、参数化和泛化

本文对In-Context Learning (ICL)的学习器类型、性能度量、误差率以及Transformer架构和ICL的关系进行了全面深入的研究，初步证明ICL隐含地实现了贝叶斯模型平均算法并受注意机制参数化，同时建立ICL遗憾、近似和泛化误差的界限，从而加深了我们对现代语言模型的关键方面的认识。

May, 2023

通过贝叶斯透镜进行上下文学习

本文通过多种线性和非线性函数类的实证观察，延伸了之前的研究，表明了transformers的理想学习者表现，并探究了其在Bayesian模型和多任务环境下的应用，还以傅里叶级数为例研究了其归纳偏差。

Jun, 2023

随机二进制序列下的上下文学习动态

使用Cognitive Interpretability框架分析GPT-3.5+模型的in-context学习动态，发现其具备生成伪随机数和学习基本形式语言的新能力，有着从伪随机行为到确定性重复的显著in-context学习特性。

Oct, 2023

大语言模型中上下文学习的不确定性分解和量化

我们的研究探讨了与上下文学习相关的大型语言模型的预测不确定性，强调这种不确定性可能来自提供的示范（先验不确定性）和模型配置的歧义（后验不确定性），提出了一种新的公式和相应的估计方法来量化两种类型的不确定性，以插入和使用的方式无监督地理解上下文学习的预测。广泛的实验证明了该分解的有效性。

Feb, 2024

大型语言模型中的上下文学习是否贝叶斯？一种鞅的视角

在这项工作中，我们通过鞅属性从一个新的角度分析了大语言模型（LLM）的背景学习（ICL）是否可以视为贝叶斯推断。我们提出了鞅属性作为满足交换数据的贝叶斯学习系统的基本要求，并且证明了它在可信的、安全关键系统中具有重要性，可以提供一个有原则的、分解的不确定性概念。我们推导了必须满足的可操作检查项，并提供了理论和测试统计学来验证鞅属性的满足。同时，我们还检验了当观测到更多数据时，LLM中的不确定性是否按照贝叶斯学习的预期减少。通过三个实验，我们提供了违反鞅属性和不符合贝叶斯不确定性缩放行为的证据，从而证明了ICL不是贝叶斯的假设。

Jun, 2024

使用迭代上下文学习获取大型语言模型先验

使用迭代学习方法，从大型语言模型（LLMs）中获取贝叶斯先验分布，并验证与人类先验的定性一致性。

Jun, 2024

基于大语言模型的概率图模型的语言表达

本文介绍了一种新颖的贝叶斯提示方法，通过使用一个语言大模型（LLMs）中的一个模糊概率图模型（PGM）来实现无需训练的贝叶斯推理。我们的模型在多个组合推理任务中取得了良好的效果，有效提升了置信度的引发和文本生成质量，显示出在模拟不确定性方面提高人工智能语言理解系统的潜力。

Jun, 2024

贝叶斯在解释上下文学习推广中的作用

本研究解决了传统神经网络训练对新型大规模单次训练的局限性，提出了将神经网络行为视为真实后验的近似。研究表明，这种理解在上下文学习中具有重要价值，使得模型能够有效地从训练数据中组合知识，实现对未见任务的推广，同时揭示了后验推广能力的固有限制。

Oct, 2024