Feb, 2023
通过 f - 分离最小化来对齐语言模型与偏好
Aligning Language Models with Preferences through f-divergence Minimization
Dongyoung Go, Tomasz Korbak, Germán Kruszewski, Jos Rozen, Nahyeon Ryu...
TL;DR提出了一种新的方法 f-DPG,它允许使用任何 f - 分歧来近似任何目标分布。f-DPG 统一了 RLHF 和 GDC 的两个框架,并且演示了不同的分歧优于近似不同目标。