Oct, 2023

SALMON:自我对齐与遵循原则的奖励模型

TL;DR该研究提出了一种名为 SALMON 的新方法,使用仅包含少量人定的原则和基于合成偏好数据训练的奖励模型,实现了对基础语言模型的自动对齐,通过调整原则控制奖励模型的偏好,进而影响强化学习训练的策略的行为,消除了对在线人类偏好收集的依赖,其在各种基准数据集上显著超越了几种最先进的人工智能系统,包括 LLaMA-2-Chat-70b,提高了监督效率、可控性和可扩展性。