Jun, 2024

从自我参照 AI 反馈中对齐大型语言模型的一个通用原则

TL;DR通过自我引用的 AI 反馈框架,允许 13B Llama2-Chat 模型以 “最适合人类” 的原则为基准,对用户指令回应进行批判,从而提供高质量的偏好反馈,并通过自洽性方法减少位置偏差的影响、使用语义困惑度来计算不同回答的偏好强度差异,实验证明该方法使 13B 和 70B Llama2-Chat 注释器能够提供高质量的偏好反馈,并且基于这些偏好数据训练的策略模型在基准数据集上通过强化学习取得了显著的优势。