Sep, 2024

在RLHF中进行政策过滤以微调LLM进行代码生成

TL;DR本研究解决了现有的强化学习从人类反馈中(RLHF)在代码生成任务中的奖励模型不准确的问题。通过引入政策过滤(PF-PPO),该方法提高了奖励数据的信噪比,从而优化政策学习。实验结果表明,PF-PPO在多个基准测试上显著提高了大型语言模型的生成性能,展现了其潜在的广泛应用价值。