Jan, 2024

最佳 N 对齐策略的理论保证

TL;DR用一种简单且有效的方法来对齐生成模型是最佳 n 策略,从基本策略中抽取 n 个样本并根据奖励函数进行排名,选择排名最高的样本,本文否定了文献中常用的分析表达式,证明了 KL 散度和最佳 n 策略以及基本策略之间不相等的关系,并探讨了这个上界在不同情况下的紧密程度,最后,提出一种新的 KL 散度估计器,并通过几个示例实证表明它提供了紧密的近似。