May, 2024

从人类演示中学习奖励优化 SFT 数据:提高 LLM 对齐的方法

TL;DR对齐人类偏好和价值是当代基础模型的重要需求。本研究提出了一种基于逆强化学习的监督微调方法,通过学习奖励模型来代替直接使用人类示范数据,并且在整个对齐过程中从始至终地利用奖励学习,取得了显著的性能提升。