May, 2024
使用直接偏好头进行语言模型的推理时间对齐
Would I Lie To You? Inference Time Alignment of Language Models using Direct Preference Heads
Avelina Asada Hadji-Kyriacou, Ognjen Arandjelovic
TL;DR通过使用强化学习和直接偏好头的 fine-tuning 框架,将预训练语言模型与人类偏好信号相结合,实现对模型输出的控制,并在各项评估中超越传统的有监督和直接偏好优化方法。