Feb, 2024

通过分布偏好奖励建模对齐群体反馈

TL;DR分布偏好奖励模型(DPRM)是一个简单而有效的框架,通过将最大语言模型(LLM)与多样化的人类偏好对齐,以提高对人群偏好的代表性。