Jan, 2024
最佳 N 对齐策略的理论保证
Theoretical guarantees on the best-of-n alignment policy
Ahmad Beirami, Alekh Agarwal, Jonathan Berant, Alexander D'Amour, Jacob Eisenstein...
TL;DR用一种简单且有效的方法来对齐生成模型是最佳 n 策略,从基本策略中抽取 n 个样本并根据奖励函数进行排名,选择排名最高的样本,本文否定了文献中常用的分析表达式,证明了 KL 散度和最佳 n 策略以及基本策略之间不相等的关系,并探讨了这个上界在不同情况下的紧密程度,最后,提出一种新的 KL 散度估计器,并通过几个示例实证表明它提供了紧密的近似。