Jun, 2024

多目标强化学习从 AI 反馈

TL;DR多目标强化学习(MORLAIF)通过使用 AI 反馈强化学习来改善语言模型的对齐和性能,将这一任务分解为多个简单的原则,如毒性、客观性和谄媚,并使用 GPT-3.5-Turbo 的反馈进行各原则的偏好模型训练,然后利用不同的标量化函数将这些偏好模型分数组合,为目标语言模型的 PPO(Proximal Policy Optimization)训练提供奖励信号。实验证明 MORLAIF 优于标准 RLAIF 基线,并且 MORLAIF 可用于使用较小的语言模型对齐更大的语言模型。令人惊讶的是,标量化函数的选择似乎没有对结果产生显著影响。