大型语言模型中的难以计算的推断摊销

Oct, 2023

大型语言模型中的难以计算的推断摊销

Amortizing intractable inference in large language models

Edward J. Hu, Moksh Jain, Eric Elmoznino, Younesse Kaddar, Guillaume Lajoie...

TL;DR通过使用归约化贝叶斯推理方法从难以通过条件概率分布采样的后验分布中提取样本，我们展示了这种分布匹配模型在 LLM 微调中作为最大似然训练和奖励最大化策略优化的有效替代方法，进而实现了对多步骤推理和工具使用任务的数据高效适应。

Abstract

autoregressive large language models (LLMs) compress knowledge from their training data through next-token conditional distributions. This limits tractable querying of this knowledge to start-to-end autoregressive sampling. However, many tasks of interest -- including sequence continua

autoregressive large language models amortized bayesian inference generative flow networks maximum-likelihood training multi-step rationalization

发现论文，激发创造

扩散模型在视觉、语言和控制中的难以推断的摊销

本文研究了扩散生成模型的后验采样问题，提出了一种相对轨迹均衡的数据无关学习目标，并将其应用于视觉、语言和控制等领域，展示了其在生成建模和离线强化学习中的潜力。

May, 2024

无似然马尔可夫蒙特卡洛与分摊的近似比率估计器

该研究提出了一种解决在科学领域中使用高级计算机模拟时出现的后验推断问题的新方法，这种方法使用学习的灵活的摊销估计量来近似似然 - 证据比率，并可以嵌入 MCMC 采样器中以从难以处理的后验中获得样本。

Mar, 2019

生成模型中用于摊销推理的通用边际化器

本文研究了在因果生成模型中进行推断的问题，通过从图形模型中提取样本，结合适当的屏蔽函数，可以训练单个神经网络来近似所有相应的条件边缘分布，从而摊销推断成本，并通过图的链式分解来从近似联合后验中生成样本。

Nov, 2017

从 LLMs 中提取事件序列解释的潜在逻辑树

设计了一个高效的工具，利用大型语言模型从大规模事件序列中提取逻辑树解释，以为每个观察到的事件序列提供定制化的洞察力。

Jun, 2024

利用基于梯度的摘要统计信息改善摊余后验近似

通过交替生成和训练条件生成模型，本研究设计出一种迭代框架来提高基于贝叶斯逆问题的后验分布的分析逼近，从而实现迭代改善逼近效果的自动化过程，并检验了在人脑超声成像中的应用情况。

May, 2023

迭代摊销推断

我们提出了迭代推理模型，它通过反复编码梯度来学习执行推理优化，从而实现对标准推理模型在多个基准数据集的图像和文本上的超越。

Jul, 2018

小规模概率元学习中的神经网络分摊推理

使用全局诱导点变分逼近来构造一系列条件分布，从而准确地对真实后验分布进行近似，其中诱导输入可以被实际数据替代，使变分分布由每个数据点的近似似然组成，从而实现了基于完整数据点的均摊推断。

Oct, 2023

矩阵：一种用于 LLMs 的贝叶斯学习模型

我们介绍了一个贝叶斯学习模型来理解大型语言模型的行为。我们探讨了大语言模型的优化指标，基于对下一个标记的预测，并开发了一个基于此原则的新颖模型。我们构建了一个理想的生成文本模型，通过具有先验信息的多项式过渡概率矩阵表示，并研究了大语言模型如何逼近该矩阵。我们讨论了嵌入和多项式分布之间的映射的连续性，并提出了狄利克雷逼近定理来近似任何先验。此外，我们展示了大型语言模型的文本生成如何符合贝叶斯学习原理，并深入探讨了其在上下文学习中的影响，特别是解释了为什么在更大的模型中，提示被视为要更新的样本。我们的研究结果表明，大型语言模型的行为与贝叶斯学习一致，为它们的功能和潜在应用提供了新的见解。

Feb, 2024

近似推理的摊还 MCMC

提出了一种新的近似推断算法，通过按摩用户选择的 MCMC 采样器的动态来近似目标分布，并使用这些样本更新近似网络，从而提高其质量，进而允许高度复杂或隐含定义的近似族，包括通过深度神经网络扭曲随机性源而产生的近似。实验以使用深度生成模型的图像建模为测试。通过摊销 MCMC 训练的深度模型被证明可以生成逼真的图像样本，以及为具有缺失像素区域的图像产生多样的填充结果。

Feb, 2017

基于深度摊销推断的概率编程

该论文提出了一种在概率编程语言中实现摊余推理的方法，摊余通过参数化的指南程序实现，并且可以包括神经网络组件以更好地进行采样，支持全局模型学习。

Oct, 2016