BriefGPT.xyz
Ask
alpha
关键词
direct policy optimisation
搜索结果 - 1
大型语言模型的人类对齐通过在线偏好优化
确保语言模型输出与人类偏好的一致性对于保证用户的有用、安全和愉快的体验至关重要。本文中,我们展示了两种最近对齐方法:Identity Policy Optimisation (IPO) 和 Nash Mirror Descent (Nash
→
PDF
4 months ago
Prev
Next