Oct, 2023

让语言模型能够从数据中隐式学习自我改进

TL;DR我们提出了一种从人类偏好数据中隐式学习的自我改进框架(PIT),以最大程度地与人类偏好相一致,显著优于提示法方法。