BriefGPT.xyz
Ask
alpha
关键词
hybrid preference optimization
搜索结果 - 1
通过覆盖度了解偏好微调
通过对数据集覆盖性的严格分析,我们证明离线对比方法能够收敛到最优策略的全局覆盖条件既是必要条件又是充分条件,而在线强化学习方法则只需要弱的局部覆盖条件,这解释了为何在线强化学习方法在离线优化数据不足时表现更好。我们推导了一种混合优化算法 (
→
PDF
a month ago
Prev
Next