BriefGPT.xyz
Ask
alpha
关键词
generalized preference optimization
搜索结果 - 1
广义偏好优化:一种离线对齐的统一方法
离线偏好优化通过直接从离线数据微调大型模型,已在最近的对齐实践中证明了其有效性。我们提出了广义偏好优化(GPO),一种由一类凸函数参数化的离线损失函数家族。GPO 实现了对偏好优化的统一视角,包括现有的算法,如 DPO、IPO 和 SLiC
→
PDF
5 months ago
Prev
Next