Apr, 2024

语言模型对齐的渐近性

TL;DR在这篇论文中,我们提出了对最优 KL 约束 RL 解的闭式描述。我们证明了任何在 KL 散度和奖励之间实现可比的权衡的对齐方法必须在相对熵方面近似于最优 KL 约束 RL 解。我们还展示了最佳 N 项对齐与 KL 约束 RL 解在期望奖励上渐近等价,并得出结论这两个分布在 KL 散度上必须相近。