在RLHF中进行政策过滤以微调LLM进行代码生成
大型语言模型对人工通用智能发展提出了一个使命,与人类对齐是其最重要的挑战,强化学习与人类反馈是支撑此追求的关键技术,并探讨了在 PPO 算法中影响策略代理训练的部件,并提出了 PPO-max 增强版本以提高策略模型的训练稳定性,总结了与SFT 模型和 ChatGPT 相比的 RLHF 能力的全面分析。
Jul, 2023
通过使用奖励模型和 Proximal Policy Optimization(PPO)来操控模型生成的输出 tokenizer 长度的新任务,实验证实PPO在操控输出tokenizer长度以及训练效果方面的有效性和发展潜力。
Aug, 2023
最近大型语言模型(LLMs)的最新进展,引起了广泛关注,并导致了成功产品,如ChatGPT和GPT-4。它们在遵循指导和提供无害、有益和诚实(3H)回答方面的熟练程度,主要归功于人类反馈强化学习(RLHF)技术。本文旨在将传统RL研究与LLM研究中使用的RL技术联系起来。通过讨论RL的优点,探索为RLHF研究带来或贡献的潜在未来方向。
Oct, 2023
从数据和算法的角度出发,本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法,包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响,并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力,从而实现迭代优化。
Jan, 2024
从人类反馈中进行强化学习(RLHF)已成为将LLM输出与人类偏好对齐的一种主要方法。受RLHF成功的启发,我们研究了从反馈中学习(Expert Iteration,Proximal Policy Optimization(PPO),Return-Conditioned RL)对改善LLM推理能力的多种算法的性能。我们通过启发式和学习的奖励模型为LLM提供了稀疏和密集奖励。我们还从多种模型尺寸和初始化状态,包括有和没有经过监督微调(SFT)数据的情况开始研究。总的来说,我们发现所有算法的性能相当,大多数情况下Expert Iteration的性能最佳。令人惊讶的是,我们发现Expert Iteration的样本复杂度与PPO相似,需要最多约$10^6$个样本从预训练检查点收敛。我们研究了为什么会这样,并得出结论,在RL训练期间,模型未能在SFT模型已经产生的解之外进行显着的探索。此外,我们讨论了SFT训练期间maj@1和pass@96度量性能之间的取舍,并且相反,RL训练同时改善了两者。最后,我们讨论了我们的发现对RLHF和LLM微调中RL的未来角色的影响。
Mar, 2024
通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础,重点关注了奖励模型作为RLHF核心组件的建模选择、函数逼近的陷阱,以及它们对训练算法的影响,同时揭示了当前方法的局限性。通过对现有文献的分类评论,我们对RLHF的挑战进行了描述,为研究人员和从业者理解RLHF的挑战并建立在现有研究的基础上提供参考。
Apr, 2024
借助强化学习从人类反馈中进行训练,通过训练策略模型和奖励模型来使语言模型与人类偏好相一致;我们提出了研究对策略模型和奖励模型之间的交互作用进行微调的无缝度概念,探索了其对性能的影响,并引入了自动度量标准SEAM来度量两者之间的无缝度。实验证明,利用SEAM进行数据选择和模型增强可以显著提高强化学习从人类反馈中的性能。
Jun, 2024
本研究解决了人类反馈强化学习在多任务学习中的局限性,特别是奖励黑客和极端多目标优化的问题。通过提出一种新颖的后训练范式——约束生成策略优化(CGPO),并引入评审组合(MoJ),实现了高效的策略优化,显著提升了多项任务的性能,特别是在避免奖励黑客方面表现出色。这一创新方法不仅提升了强化学习的效果,还推进了大语言模型在多样化应用场景中的对齐能力。
Sep, 2024