Mar, 2024

大型语言模型的人类对齐通过在线偏好优化

TL;DR确保语言模型输出与人类偏好的一致性对于保证用户的有用、安全和愉快的体验至关重要。本文中,我们展示了两种最近对齐方法:Identity Policy Optimisation (IPO) 和 Nash Mirror Descent (Nash-MD) 之间的等价性,并引入了一种名为 IPO-MD 的 IPO 推广算法,它利用了 Nash-MD 提出的正则化抽样方法。