Jun, 2024

通过多目标奖励建模和专家混合解释性偏好

TL;DR通过建立一个具有可解释性的绝对评分多目标奖励模型 (ArmoRM) 和一个自动选择最合适奖励目标的门控网络,我们在大型语言模型对齐领域取得了与 GPT-4 评委相比的最先进表现,并接近更大的 Nemotron-4 340B 奖励模型的性能。