May, 2024

自我增强偏好优化:语言模型对齐的离线策略范式

TL;DR通过引入自我增强式优化(SAPO)方法,本研究提出了一种有效和可扩展的训练范式 —— 自我增强式偏好优化,不依赖于现有的配对数据,通过自我对弈生成负面响应,并结合离线对比基线和历史数据的实时反馈来动态更新响应段,从而匹配或超过现有离线对比的基线方法,如 Direct Preference Optimization 和 Odds Ratio Preference Optimization,同时优于离线自我对弈方法,如 SPIN。