RLHF 与 IIA:逆向激励
强化学习来自人类反馈是一种训练 AI 系统与人类目标对齐的技术,但其自身存在的问题、局限性以及相关改进技术的概述,以及提出用于改善社会监督的审计和公开标准的重要性。
Jul, 2023
强化学习从人的反馈中能够很好地对齐大型语言模型,但是获取高质量人类偏好标签是一个关键 bottleneck。我们进行了一项 RL from AI Feedback(RLAIF)与强化学习从人的反馈(RLHF)的头对头比较,发现它们具有相似的改进效果。在摘要任务中,人类评估员在约 70% 的案例中更喜欢 RLAIF 和 RLHF 生成的结果,而不是基准的监督微调模型。此外,当被要求对 RLAIF 和 RLHF 的摘要进行评分时,人类选择它们的比例相等。这些结果表明,RLAIF 可以取得与人类水平相当的性能,从而解决 RLHF 的可扩展性限制。
Sep, 2023
通过使用 AI 反馈进行增强学习(RLAIF)在大型语言模型(LLM)训练的快速策略迭代阶段比通过人类反馈进行增强学习(RLHF)具有更短的注释周期和更低的成本,使其效率更高。本文提出了混合增强学习来自 AI 反馈(HRLAIF)方法,通过增强 AI 注释的准确性,使模型在训练过程中的帮助更可靠,并且通过 AI 进行红队行动,进一步提高模型的无害性。与 RL 之前的策略模型相比,HRLAIF 方法在满意率上实现了 2.08% 的增加,有效解决了基本 RLAIF 后满意率下降 4.58% 的问题。
Mar, 2024
从数据和算法的角度出发,本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法,包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响,并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力,从而实现迭代优化。
Jan, 2024
这篇论文介绍了一个针对离线奖励学习的新型线性规划(LP)框架,通过基于观察到的人类演示和反馈来推断和塑造顺序决策问题的底层奖励函数,并在保持计算可行性和样本效率的同时,提供可证明的样本效率优化保证。
May, 2024
通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础,重点关注了奖励模型作为 RLHF 核心组件的建模选择、函数逼近的陷阱,以及它们对训练算法的影响,同时揭示了当前方法的局限性。通过对现有文献的分类评论,我们对 RLHF 的挑战进行了描述,为研究人员和从业者理解 RLHF 的挑战并建立在现有研究的基础上提供参考。
Apr, 2024
本文批评性地评估了通过强化学习从反馈中对齐人工智能系统,特别是大规模语言模型,与人的价值观和意图的尝试,包括人的反馈和人工智能的反馈。具体来说,我们展示了广泛追求的诚实、无害和有帮助的对齐目标的不足。通过多学科社会技术批判,我们考察了 RLxF 技术的理论基础和实践实现,揭示了其在捕捉人类伦理复杂性和促进人工智能安全方面的重要局限性。我们强调了 RLxF 目标中固有的张力和矛盾。此外,我们讨论了在关于对齐和 RLxF 的讨论中往往被忽视的道德相关问题,其中包括用户友好与欺骗、灵活性与可解释性、系统安全之间的权衡。我们最后敦促研究人员和从业者在评估 RLxF 的社会技术后果时进行批判性评估,倡导在人工智能开发中采用更细致、反思的方法。
Jun, 2024