Feb, 2023

通过 f - 分离最小化来对齐语言模型与偏好

TL;DR提出了一种新的方法 f-DPG,它允许使用任何 f - 分歧来近似任何目标分布。f-DPG 统一了 RLHF 和 GDC 的两个框架,并且演示了不同的分歧优于近似不同目标。