BriefGPT.xyz
Ask
alpha
关键词
self-play-based method
搜索结果 - 1
语言模型对齐的自我游戏偏好优化
提议了一种基于自对弈的语言模型对齐方法,称为 SPPO,通过迭代策略更新近似求解纳什均衡策略,可以有效提高所选择的响应的对数似然并降低所拒绝响应的对数似然,同时在多个实验中表现优于其他基于对称成对损失的方法。
PDF
2 months ago
Prev
Next