Jun, 2024

大型语言模型人类偏好学习综述

TL;DR本综述从以偏好为中心的角度回顾了探索大型语言模型(LLMs)的人类偏好学习的进展,包括偏好反馈的来源和格式,偏好信号的建模和使用,以及对齐LLMs的评估。