Oct, 2023

大型语言模型中的难以计算的推断摊销

TL;DR通过使用归约化贝叶斯推理方法从难以通过条件概率分布采样的后验分布中提取样本,我们展示了这种分布匹配模型在 LLM 微调中作为最大似然训练和奖励最大化策略优化的有效替代方法,进而实现了对多步骤推理和工具使用任务的数据高效适应。