May, 2024

在线自好的语言模型

TL;DR借助自主生成的响应对和自我评定的偏好强度信息,我们提出了在线自主偏好(OSP)语言模型来学习,展示了利用偏好强度是关键避免过度拟合和增强对准性能。OSP 在两个广泛使用的人类偏好数据集中实现了最先进的对准性能,而且在有限的离线数据和跨领域任务推广方面,OSP 是效率高、稳健性高于主流的在线方法 RLHF 的选择。此外,具有自主偏好能力的 LLM 建立的 OSP 语言模型可以在无需外部监督的情况下高效自我改进。