Nov, 2023

对抗性偏好优化

TL;DR人类偏好对齐是提高大型语言模型交互质量的重要训练步骤。我们提出了一种对抗式偏好优化框架 (APO),通过最小最大博弈的方式,使 LLM 代理和偏好模型交替更新,从而自适应地解决生成分布差异的问题,实验证明了 APO 在改善 LLM 的帮助性和无害性方面的有效性。