Apr, 2024

直接纳什优化:通过一般偏好教导语言模型自我改进

TL;DR本文研究了使用强力预言机的偏好反馈来帮助模型迭代改进的训练后大语言模型。通过直接优化一般偏好关系,本文介绍了可证明且可扩展的 Direct Nash Optimization 算法,并在实验中证明其在性能上优于其他模型。