Feb, 2024

BRAIn: 基于贝叶斯奖励条件化摊销推理的自然语言生成

TL;DR基于Proximal Policy Optimization(PPO)的成功,提出了离线性质的Sequence Likelihood Calibration(SLiC)和Direct Policy Optimization(DPO)等新技术,但在LMM对齐方面忽略了PPO方法的重要特征。因此,本文提出了一种名为BRAIn的新方法,通过引入奖励模型(RM)作为分布匹配方法的一部分,并通过贝叶斯定理导出一个无法处理的后验分布,从而显式地表示出RM。BRAIn然后通过自标准化重要性采样将这个后验分布提炼成一个摊还推理网络,从而获得一个可扩展的离线算法,在摘要和AntropicHH任务中明显优于先前的艺术作品。此外,BRAIn还与特定RM选择的PPO和DPO有有趣的关联。