最佳 N 对齐策略的理论保证

Jan, 2024

Theoretical guarantees on the best-of-n alignment policy

Ahmad Beirami, Alekh Agarwal, Jonathan Berant, Alexander D'Amour, Jacob Eisenstein...

TL;DR用一种简单且有效的方法来对齐生成模型是最佳 n 策略，从基本策略中抽取 n 个样本并根据奖励函数进行排名，选择排名最高的样本，本文否定了文献中常用的分析表达式，证明了 KL 散度和最佳 n 策略以及基本策略之间不相等的关系，并探讨了这个上界在不同情况下的紧密程度，最后，提出一种新的 KL 散度估计器，并通过几个示例实证表明它提供了紧密的近似。

Abstract

A simple and effective method for the alignment of generative models is the best-of-$n$ policy, where $n$ samples are drawn from a base policy, and ranked based on a reward function, and the highest ranking one i

alignment generative models best-of-n policy kl divergence estimator

发现论文，激发创造

大规模语言模型中的策略对齐信息论保证

大型语言模型的策略对齐是指在约束的策略优化中，通过优化策略来最大化奖励，同时与参考策略在 KL 散度等 f - 散度方面保持接近。文中证明了当参考策略的奖励具有亚高斯尾部时，策略对齐的奖励提升与参考策略之间的 KL 散度成平方根关系；对于最优 n 策略，通过 Rényi 排序的表示以及数据处理不等式，可以获得任何 f - 散度下的 KL 上界。此外，如果对于策略对齐的尾部有额外的信息，可以通过 Rényi 散度获得更严格的奖励改进控制。最后，通过将上界从代理奖励转移到真实奖励，文中展示了由于代理奖励的过度估计和近似误差而导致的真实奖励改进的减少。

Jun, 2024

语言模型对齐的渐近性

在这篇论文中，我们提出了对最优 KL 约束 RL 解的闭式描述。我们证明了任何在 KL 散度和奖励之间实现可比的权衡的对齐方法必须在相对熵方面近似于最优 KL 约束 RL 解。我们还展示了最佳 N 项对齐与 KL 约束 RL 解在期望奖励上渐近等价，并得出结论这两个分布在 KL 散度上必须相近。

Apr, 2024

大语言模型的 BoNBoN 对齐及最佳抽取采样的甜度

该研究主要探讨了使用最佳 $n$ 个样本对大型语言模型进行人类偏好对齐的问题，并比较了最佳 $n$ 样本抽取法与训练 LLMs 以输出高期望奖励样本的对齐方法之间的关系，并提出了 BoNBoN Alignment 方法来实现 LLM 对最佳 $n$ 抽取法的模拟，实验证明 BoNBoN 对齐能够在最大程度上提高模型的选择性同时最小化对非目标方面的影响。

Jun, 2024

密度估計中的下界和聚合

本文通过对 M 个密度估计器进行聚合过程来证明其最优性，并针对 KL 距离、Hellinger 距离和 L1 距离类型的模型选择估计器证明了下限，其中 KL 距离的下限可以通过 Yang (2000) 等人建议的在线估计获得。这些结果的结合使我们确认了对于采样量 n，ln (M/n) 是按照 Tsybakov (2003) 的意义下的最优聚合速率。

Mar, 2006

限制生成模型的测试对数似然

研究提出了一种更高效的密度估计方法，从而解决了一些复杂的生成学习算法中难以估计模型质量的问题，并证明其提供了真实测试对数似然的下界和无偏估计，同时还提出了一种偏差估计的变体，可以在有限的样本数下可靠地用于模型比较。

Nov, 2013

基于轨迹的无模型策略优化与单调改进

该论文提出一种基于轨迹的无模型策略优化算法，使用局部二次时间相关 q 函数学习从轨迹数据中反向传播而来，计算准确的 KL 约束满足，实验结果表明与线性化系统动态的方法相比，在高度非线性的控制任务中，我们的算法性能有了显著提高且有保证的单调性改进。

Jun, 2016

马尔可夫决策过程中最佳策略识别的自适应采样

本文研究在马尔可夫决策过程中，通过生成模型来识别最优策略，提出了 KLB-TS 算法，并提供了其样本复杂度的渐近保证。

Sep, 2020

Kullback-Leibler 序贝叶斯算法的优化序列分配上界

本研究考虑在随机多臂赌博机模型下的最优顺序分配问题，提出了一种基于上置信界计算分数函数的泛指数策略，对一些分布类型进行分析，同时给出了算法失策量的有限时间分析结果。实验证明，此策略在使用一般有界回报时比现有技术有显著改进。

Oct, 2012

KL 散度的估计：最优极小极大速率

研究在字母表大小可以无限扩展的假设下，基于从 P 中抽取 m 个独立样本和从 Q 中抽取 n 个独立样本，估算两个未知分布 P 和 Q 之间 Kullback-Leibler 差异的问题，并提出了改进后的插件估计器和最小二次风险最小值估计器。

Jul, 2016

使用 Tsallis KL 散度的广义 Munchausen 强化学习

该研究探讨了一种广义的 KL 散度，称为 Tsallis KL 散度，并将其应用于政策优化，通过将其与基于 MVI 的 KL 正则化相结合，证明该技术可有效提高 35 个 Atari 游戏的表现。

Jan, 2023