Dec, 2023
偏好作为奖励,通过重要性采样进行最大偏好优化
Preference as Reward, Maximum Preference Optimization with Importance
Sampling
TL;DR这篇论文介绍了一种重要的技术——偏好学习,其中Reinforcement Learning from Human Feedback(RLHF)是一种优化偏好学习的模型算法,通过对偏好得分建立奖励模型并优化生成策略;为了提高数据效率和稳定性,提出了使用离策略算法进行直接优化生成策略的Direct Preference Optimization(DPO)算法;通过增加离策略KL正则化项实现了KL正则化的真正有效性。