Jun, 2024

通过覆盖度了解偏好微调

TL;DR通过对数据集覆盖性的严格分析,我们证明离线对比方法能够收敛到最优策略的全局覆盖条件既是必要条件又是充分条件,而在线强化学习方法则只需要弱的局部覆盖条件,这解释了为何在线强化学习方法在离线优化数据不足时表现更好。我们推导了一种混合优化算法 (HyPO),它使用离线数据进行基于对比的优化,同时使用在线数据进行 KL 正则化。从理论和实证上证明,HyPO 比纯离线方法 (DPO) 具有更好的性能,同时仍然保持计算和内存效率。