贝叶斯在解释上下文学习推广中的作用

Oct, 2024

贝叶斯在解释上下文学习推广中的作用

Bayes' Power for Explaining In-Context Learning Generalizations

Samuel Müller, Noah Hollmann, Frank Hutter

TL;DR本研究解决了传统神经网络训练对新型大规模单次训练的局限性，提出了将神经网络行为视为真实后验的近似。研究表明，这种理解在上下文学习中具有重要价值，使得模型能够有效地从训练数据中组合知识，实现对未见任务的推广，同时揭示了后验推广能力的固有限制。

Abstract

Traditionally, neural network training has been primarily viewed as an approximation of maximum likelihood estimation (MLE). This interpretation originated in a time when training for multiple epochs on small datasets was common and performance was data bound; but it falls short in the era of large-scale single-epoch trainings ushered in by large self-superv

发现论文，激发创造

上下文学习作为隐式贝叶斯推断的解释

本研究探讨了大语言模型中的上下文学习现象，并证明了基于长期相关性的预训练可以促进上下文学习。通过人工合成数据集，实验结果表明了模型规模对上下文学习的影响，以及例子顺序和零样本学习等现象。

Nov, 2021

基于核回归的大语言模型上下文学习解析

通过研究大型语言模型，本文提出Large language models可以在面对语境示例时模拟核回归算法，并证明了在Context prompts上的贝叶斯推理可以被当作大样本上的核回归，并通过实证研究发现，LLMs中的注意力和隐藏特征与核回归的行为相匹配，这些为ICL领域中观察到的多种现象提供了见解。

May, 2023

面向上下文学习的何以及如何学习？贝叶斯模型平均、参数化和泛化

本文对In-Context Learning (ICL)的学习器类型、性能度量、误差率以及Transformer架构和ICL的关系进行了全面深入的研究，初步证明ICL隐含地实现了贝叶斯模型平均算法并受注意机制参数化，同时建立ICL遗憾、近似和泛化误差的界限，从而加深了我们对现代语言模型的关键方面的认识。

May, 2023

通过贝叶斯透镜进行上下文学习

本文通过多种线性和非线性函数类的实证观察，延伸了之前的研究，表明了transformers的理想学习者表现，并探究了其在Bayesian模型和多任务环境下的应用，还以傅里叶级数为例研究了其归纳偏差。

Jun, 2023

上下文 ≈ 环境

在AI研究中，通过对环境的关注以及在上下文中学习的方法，可以改善领域泛化的效果。

Sep, 2023

探索上下文学习与组合泛化之间的关系

通过在不同顺序的训练实例和打乱实例标签中训练模型，以测试强迫模型进行上下文学习对组成概括的促进作用的假设，研究表明，以这种方式训练的模型在组成概括方面确实显示出改进，证明了上下文学习问题作为归纳偏差用于概括的有效性。

Mar, 2024

大型语言模型中的上下文学习是否贝叶斯？一种鞅的视角

在这项工作中，我们通过鞅属性从一个新的角度分析了大语言模型（LLM）的背景学习（ICL）是否可以视为贝叶斯推断。我们提出了鞅属性作为满足交换数据的贝叶斯学习系统的基本要求，并且证明了它在可信的、安全关键系统中具有重要性，可以提供一个有原则的、分解的不确定性概念。我们推导了必须满足的可操作检查项，并提供了理论和测试统计学来验证鞅属性的满足。同时，我们还检验了当观测到更多数据时，LLM中的不确定性是否按照贝叶斯学习的预期减少。通过三个实验，我们提供了违反鞅属性和不符合贝叶斯不确定性缩放行为的证据，从而证明了ICL不是贝叶斯的假设。

Jun, 2024

探索大型语言模型中的上下文学习决策边界

通过探究决策边界对上下文二分类的定性行为，我们发现现有的大型语言模型在简单的二分类任务中学习到的决策边界通常是不规则且非平滑的，本论文研究了影响这些决策边界的因素，并探讨了提高它们泛化能力的方法。通过评估各种方法，包括对大型语言模型的无需训练和微调方法、模型架构的影响以及平滑决策边界的数据高效技术的有效性，我们的研究结果为理解上下文学习动态和改善其鲁棒性和泛化能力提供了更深入的认识和实用改进。

Jun, 2024

基于表示的上下文学习：训练变压器的上下文泛化

本研究解决了对预训练大语言模型在上下文学习中如何对未见样例进行泛化的理论理解缺乏的问题。作者通过非线性回归任务分析变压器的训练动态，提出了在小样本提示下通过学习每个任务的模板函数来实现上下文泛化的创新方法。研究表明，在特定假设下，变压器能够有效学习上下文信息，从而实现对新任务和样例的泛化，这为机器学习模型的训练提供了新的视角。

Aug, 2024

变压器是最小最大最优的非参数上下文学习者

本文研究了大型语言模型的上下文学习（ICL）在统计学习理论中的有效性，提出了变压器在非参数回归任务中的逼近和泛化误差界限。研究表明，经过充分训练的变压器不仅能够实现最小最大最优的估计风险，还能在上下文中提升表示能力，进而揭示任务多样性和表征学习在ICL中的关键作用。

Aug, 2024