May, 2024

真实为贵:将大型语言模型与在线人类行为对齐

TL;DR本文提出了一种对齐框架,名为人类行为强化学习(RLHB),通过直接利用真实的在线人类行为来对齐大型语言模型,并采用生成对抗框架训练生成器按照预期的人类行为进行回复,鉴别器则验证查询、回复和人类行为三元组是否来自真实的在线环境,在自然语言形式的行为模型和多模型联合训练机制的支持下,实现了积极可持续的在线对齐。通过人工和自动评估,实验证实了本文方法的有效性。