Dec, 2023

即时对齐:将聊天机器人行为调整到已建立的规范上

TL;DR本文旨在将大型语言模型与不断变化、复杂多样的人类价值观(例如社会规范)进行对齐。为了解决这个问题,我们提出了即时偏好优化(OPO)方法,它是一种实时对齐方法,可以通过外部记忆存储已建立的对齐规则,有效约束语言模型的行为,实现人类价值观的便捷更新和定制。我们还介绍了一种可扩展的评估方法,更有效地评估提出的方法。在法律和道德领域的人工注释和自动生成问题的实验结果表明了提出的 OPO 方法的有效性。我们在该 URL 上公开发布了代码和数据。