Apr, 2024

应用示范引导强化学习来对抗 LLM 中的奖励过度优化

TL;DR利用人类示范和奖励模型重新校准奖励目标,通过最小化示范与语言模型的奖励之间的距离来避免对语言模型的奖励模型进行操纵和促进更自然、多样化的语言生成。