May, 2024

语言模型对齐的自我游戏偏好优化

TL;DR提议了一种基于自对弈的语言模型对齐方法,称为 SPPO,通过迭代策略更新近似求解纳什均衡策略,可以有效提高所选择的响应的对数似然并降低所拒绝响应的对数似然,同时在多个实验中表现优于其他基于对称成对损失的方法。