May, 2024

使用直接偏好头进行语言模型的推理时间对齐

TL;DR通过使用强化学习和直接偏好头的 fine-tuning 框架,将预训练语言模型与人类偏好信号相结合,实现对模型输出的控制,并在各项评估中超越传统的有监督和直接偏好优化方法。