使用生成对抗反馈来微调语言模型

May, 2023

使用生成对抗反馈来微调语言模型

Fine-tuning Language Models with Generative Adversarial Feedback

Zhang Ze Yu, Lau Jia Jaw, Wong Qin Jiang, Zhang Hui

TL;DR研究探讨了使用生成对抗反馈的强化学习（RLGAF）方法，以弥补人类评估者的专业知识和生产力限制并帮助对齐大型语言模型（LLMs）的输出，从而为进一步实现 AI 对准提供了前景。

Abstract

reinforcement learning with human feedback (RLHF) has been demonstrated to significantly enhance the performance of large language models

reinforcement learning human feedback language models generative adversarial feedback ai alignment

发现论文，激发创造

RLAIF：以 AI 反馈为基础的强化学习扩展

强化学习从人的反馈中能够很好地对齐大型语言模型，但是获取高质量人类偏好标签是一个关键 bottleneck。我们进行了一项 RL from AI Feedback（RLAIF）与强化学习从人的反馈（RLHF）的头对头比较，发现它们具有相似的改进效果。在摘要任务中，人类评估员在约 70% 的案例中更喜欢 RLAIF 和 RLHF 生成的结果，而不是基准的监督微调模型。此外，当被要求对 RLAIF 和 RLHF 的摘要进行评分时，人类选择它们的比例相等。这些结果表明，RLAIF 可以取得与人类水平相当的性能，从而解决 RLHF 的可扩展性限制。

Sep, 2023

通过自然语言以人工反馈聚合大规模语言模型数据对齐

通过模型中人类反馈的学习，改进大型语言模型（LLMs）的输出与人类期望的一致性，利用人类反馈信号中以响应对的排名形式的强化学习，研究使用自然语言反馈模型的数据效率，通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进，提高了模型的响应质量。

Nov, 2023

RLHF 揭示：对于 LLMs 的强化学习从人类反馈的关键分析

通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础，重点关注了奖励模型作为 RLHF 核心组件的建模选择、函数逼近的陷阱，以及它们对训练算法的影响，同时揭示了当前方法的局限性。通过对现有文献的分类评论，我们对 RLHF 的挑战进行了描述，为研究人员和从业者理解 RLHF 的挑战并建立在现有研究的基础上提供参考。

Apr, 2024

强化学习从人类反馈中的开放问题与基本限制

强化学习来自人类反馈是一种训练 AI 系统与人类目标对齐的技术，但其自身存在的问题、局限性以及相关改进技术的概述，以及提出用于改善社会监督的审计和公开标准的重要性。

Jul, 2023

强化学习与人类反馈调查

深入探讨人机交互技术中基于人类反馈的强化学习（RLHF）的基本原理、应用及其研究趋势。

Dec, 2023

ChatGLM-RLHF：大型语言模型与人类反馈的对齐实践

ChatGLM-RLHF 是一种从人类反馈中进行强化学习的系统，通过收集人类偏好数据、训练奖励模型和优化策略等方式，解决了与人类偏好的对齐问题，在大规模训练中稳定奖励方差、实现模型并行性并设计正则化约束以避免灾难性遗忘，通过实验证明在中文对齐任务中与 ChatGLM-SFT 相比，ChatGLM-RLHF 取得了平均 15% 的更多胜利，本研究实践了利用人类偏好与语言模型对齐的方法，并提供了 RLHF 实现中的挑战与解决方案的见解。

Apr, 2024

个性化人类反馈的个性化语言建模

发展个性化语言模型的方法，结合用户模型和语言（或奖励）模型的学习目标，对个性化语言模型进行强化学习，以更好地满足用户偏好。

Feb, 2024

细粒度人类反馈为语言模型训练提供更好的奖励

本文介绍了 Fine-Grained RLHF 框架，可以对包含一定程度错误或无效信息的长文本提供细化的人类反馈进行训练，并实验表明使用该框架能够改善语言模型生成过程中生成虚假、有毒、无关的输出等问题。

Jun, 2023

通过细粒度自我反思实现强化学习（RLRF）：对齐和改进 LLMs

通过利用细致的反馈基于详细准则来改进 LLMs 的核心能力，我们提出了一种新颖的框架：反思性反馈强化学习。RLRF 采用自我反思机制来系统地探索和改进 LLM 的回答，并通过与有希望的回答一起使用 RL 算法来微调模型。我们在 Just-Eval、Factuality 和数学推理方面的实验证明了 RLRF 在超越表面层调整方面的功效和变革潜力。

Mar, 2024

对大型语言模型对齐的 AI 反馈的关键评估

强化学习与 AI 反馈（RLAIF）是改进强大的预训练语言模型的指令遵循能力的流行范式。我们提出了一个问题，即对于 AI 反馈来说，这个 RL 步骤的复杂性是否真的有必要。我们发现，RL 步骤的改进主要归因于使用比用于 AI 反馈生成的评论者模型较弱的教师模型进行 SFT 数据收集的普遍做法。此外，我们发现 RLAIF 的收益在基础模型系列、测试时评估协议和评论者模型之间存在显著差异。最后，我们针对何时 SFT 可能优于完整的两步 RLAIF 流程以及如何使 RLAIF 在实践中最大化使用提供了一个机制解释和建议。

Feb, 2024