预训练与上下文学习:德·费内蒂式贝叶斯推断
本研究探讨了大语言模型中的上下文学习现象,并证明了基于长期相关性的预训练可以促进上下文学习。通过人工合成数据集,实验结果表明了模型规模对上下文学习的影响,以及例子顺序和零样本学习等现象。
Nov, 2021
本文从贝叶斯的角度出发,将大型语言模型视作主题模型,提出了一种从标注数据中选择最佳示范的算法,并在实际数据集中证明相对于随机选择基线,平均有12.5%的显著改进。研究表明,大型语言模型从示范中隐式地推断出潜在的概念变量。
Jan, 2023
本文对In-Context Learning (ICL)的学习器类型、性能度量、误差率以及Transformer架构和ICL的关系进行了全面深入的研究,初步证明ICL隐含地实现了贝叶斯模型平均算法并受注意机制参数化,同时建立ICL遗憾、近似和泛化误差的界限,从而加深了我们对现代语言模型的关键方面的认识。
May, 2023
本文通过多种线性和非线性函数类的实证观察,延伸了之前的研究,表明了transformers的理想学习者表现,并探究了其在Bayesian模型和多任务环境下的应用,还以傅里叶级数为例研究了其归纳偏差。
Jun, 2023
使用Cognitive Interpretability框架分析GPT-3.5+模型的in-context学习动态,发现其具备生成伪随机数和学习基本形式语言的新能力,有着从伪随机行为到确定性重复的显著in-context学习特性。
Oct, 2023
我们的研究探讨了与上下文学习相关的大型语言模型的预测不确定性,强调这种不确定性可能来自提供的示范(先验不确定性)和模型配置的歧义(后验不确定性),提出了一种新的公式和相应的估计方法来量化两种类型的不确定性,以插入和使用的方式无监督地理解上下文学习的预测。广泛的实验证明了该分解的有效性。
Feb, 2024
在这项工作中,我们通过鞅属性从一个新的角度分析了大语言模型(LLM)的背景学习(ICL)是否可以视为贝叶斯推断。我们提出了鞅属性作为满足交换数据的贝叶斯学习系统的基本要求,并且证明了它在可信的、安全关键系统中具有重要性,可以提供一个有原则的、分解的不确定性概念。我们推导了必须满足的可操作检查项,并提供了理论和测试统计学来验证鞅属性的满足。同时,我们还检验了当观测到更多数据时,LLM中的不确定性是否按照贝叶斯学习的预期减少。通过三个实验,我们提供了违反鞅属性和不符合贝叶斯不确定性缩放行为的证据,从而证明了ICL不是贝叶斯的假设。
Jun, 2024
本文介绍了一种新颖的贝叶斯提示方法,通过使用一个语言大模型(LLMs)中的一个模糊概率图模型(PGM)来实现无需训练的贝叶斯推理。我们的模型在多个组合推理任务中取得了良好的效果,有效提升了置信度的引发和文本生成质量,显示出在模拟不确定性方面提高人工智能语言理解系统的潜力。
Jun, 2024
本研究解决了传统神经网络训练对新型大规模单次训练的局限性,提出了将神经网络行为视为真实后验的近似。研究表明,这种理解在上下文学习中具有重要价值,使得模型能够有效地从训练数据中组合知识,实现对未见任务的推广,同时揭示了后验推广能力的固有限制。
Oct, 2024