在RLHF中进行政策过滤以微调LLM进行代码生成

Sep, 2024

在RLHF中进行政策过滤以微调LLM进行代码生成

Policy Filtration in RLHF to Fine-Tune LLM for Code Generation

Wei Shen, Chuheng Zhang

TL;DR本研究解决了现有的强化学习从人类反馈中（RLHF）在代码生成任务中的奖励模型不准确的问题。通过引入政策过滤（PF-PPO），该方法提高了奖励数据的信噪比，从而优化政策学习。实验结果表明，PF-PPO在多个基准测试上显著提高了大型语言模型的生成性能，展现了其潜在的广泛应用价值。

Abstract

Reinforcement Learning from Human Feedback (RLHF) is one of the key techniques that helps large language models (LLMs) to follow instructions and provide helpful and harmless responses. While direct →

发现论文，激发创造

RLTF：来自单元测试反馈的强化学习

利用强化学习提升大型语言模型的程序合成生成能力，通过采用多粒度的单元测试反馈信号来指导模型生成高质量代码。

Jul, 2023

大型语言模型中 RLHF 的秘密第一部分: PPO

大型语言模型对人工通用智能发展提出了一个使命，与人类对齐是其最重要的挑战，强化学习与人类反馈是支撑此追求的关键技术，并探讨了在 PPO 算法中影响策略代理训练的部件，并提出了 PPO-max 增强版本以提高策略模型的训练稳定性，总结了与SFT 模型和 ChatGPT 相比的 RLHF 能力的全面分析。

Jul, 2023

近端策略优化实战：操纵输出标记长度

通过使用奖励模型和 Proximal Policy Optimization（PPO）来操控模型生成的输出 tokenizer 长度的新任务，实验证实PPO在操控输出tokenizer长度以及训练效果方面的有效性和发展潜力。

Aug, 2023

成对近邻策略优化：利用相对反馈进行LLM对齐

通过相对反馈，本文介绍了一种更简单而有效的方法，以相对反馈将大型语言模型对齐到人类的偏好。

Sep, 2023

LLM时代的强化学习: 什么是必要的? 什么是需要的? 强化学习在RLHF, Prompting和更多方面的视角

最近大型语言模型（LLMs）的最新进展，引起了广泛关注，并导致了成功产品，如ChatGPT和GPT-4。它们在遵循指导和提供无害、有益和诚实（3H）回答方面的熟练程度，主要归功于人类反馈强化学习（RLHF）技术。本文旨在将传统RL研究与LLM研究中使用的RL技术联系起来。通过讨论RL的优点，探索为RLHF研究带来或贡献的潜在未来方向。

Oct, 2023

大型语言模型中RLHF的秘密之二：奖励建模

从数据和算法的角度出发，本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法，包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响，并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力，从而实现迭代优化。

Jan, 2024

使用强化学习训练大型语言模型进行推理

从人类反馈中进行强化学习（RLHF）已成为将LLM输出与人类偏好对齐的一种主要方法。受RLHF成功的启发，我们研究了从反馈中学习（Expert Iteration，Proximal Policy Optimization（PPO），Return-Conditioned RL）对改善LLM推理能力的多种算法的性能。我们通过启发式和学习的奖励模型为LLM提供了稀疏和密集奖励。我们还从多种模型尺寸和初始化状态，包括有和没有经过监督微调（SFT）数据的情况开始研究。总的来说，我们发现所有算法的性能相当，大多数情况下Expert Iteration的性能最佳。令人惊讶的是，我们发现Expert Iteration的样本复杂度与PPO相似，需要最多约$10^6$个样本从预训练检查点收敛。我们研究了为什么会这样，并得出结论，在RL训练期间，模型未能在SFT模型已经产生的解之外进行显着的探索。此外，我们讨论了SFT训练期间maj@1和pass@96度量性能之间的取舍，并且相反，RL训练同时改善了两者。最后，我们讨论了我们的发现对RLHF和LLM微调中RL的未来角色的影响。

Mar, 2024

RLHF 揭示：对于LLMs的强化学习从人类反馈的关键分析

通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础，重点关注了奖励模型作为RLHF核心组件的建模选择、函数逼近的陷阱，以及它们对训练算法的影响，同时揭示了当前方法的局限性。通过对现有文献的分类评论，我们对RLHF的挑战进行了描述，为研究人员和从业者理解RLHF的挑战并建立在现有研究的基础上提供参考。

Apr, 2024

奖励和策略模型在强化学习中的无缝衔接探讨

借助强化学习从人类反馈中进行训练，通过训练策略模型和奖励模型来使语言模型与人类偏好相一致；我们提出了研究对策略模型和奖励模型之间的交互作用进行微调的无缝度概念，探索了其对性能的影响，并引入了自动度量标准SEAM来度量两者之间的无缝度。实验证明，利用SEAM进行数据选择和模型增强可以显著提高强化学习从人类反馈中的性能。

Jun, 2024

完美融合：通过评审组合重新定义人类反馈强化学习

本研究解决了人类反馈强化学习在多任务学习中的局限性，特别是奖励黑客和极端多目标优化的问题。通过提出一种新颖的后训练范式——约束生成策略优化（CGPO），并引入评审组合（MoJ），实现了高效的策略优化，显著提升了多项任务的性能，特别是在避免奖励黑客方面表现出色。这一创新方法不仅提升了强化学习的效果，还推进了大语言模型在多样化应用场景中的对齐能力。

Sep, 2024