Mar, 2024

HRLAIF:通过 AI 反馈在开放域强化学习中的有用性和无害性改进

TL;DR通过使用 AI 反馈进行增强学习(RLAIF)在大型语言模型(LLM)训练的快速策略迭代阶段比通过人类反馈进行增强学习(RLHF)具有更短的注释周期和更低的成本,使其效率更高。本文提出了混合增强学习来自 AI 反馈(HRLAIF)方法,通过增强 AI 注释的准确性,使模型在训练过程中的帮助更可靠,并且通过 AI 进行红队行动,进一步提高模型的无害性。与 RL 之前的策略模型相比,HRLAIF 方法在满意率上实现了 2.08% 的增加,有效解决了基本 RLAIF 后满意率下降 4.58% 的问题。