使用编译器生成的强化学习反馈来调整代码模型

May, 2023

使用编译器生成的强化学习反馈来调整代码模型

Tuning Models of Code with Compiler-Generated Reinforcement Learning Feedback

Abhinav Jain, Chima Adiole, Swarat Chaudhuri, Thomas Reps, Chris Jermaine

TL;DR通过反馈机制在 Large Language Models 中引入编译器和参考程序的验证，提高了自动生成代码的正确性和可执行性，实验结果表明 RLCF 提高了 LLMs 在 Java MBJP 和 MathQA 任务中的表现。

Abstract

large language models (LLMs) pre-trained on code have recently emerged as the dominant approach to program synthesis. However, the code that these models produce can violate basic language-level invariants, leadi

large language models rlcf program synthesis code compiler correctness checks

发现论文，激发创造

RLTF：来自单元测试反馈的强化学习

利用强化学习提升大型语言模型的程序合成生成能力，通过采用多粒度的单元测试反馈信号来指导模型生成高质量代码。

Jul, 2023

利用强化学习和大型语言模型进行代码优化

提出了一种建立在大型语言模型和强化学习基础上的框架，用于减少代码优化的复杂性并提供更高的效率和可靠性。

Dec, 2023

CodeRL: 通过预训练模型和深度强化学习掌握代码生成

CodeRL 使用预训练的语言模型和深度强化学习框架解决了程序合成中标准的有监督微调的一些局限，同时在 APPs 和 MBPP 基准测试中创造了新的 SOTA 结果。

Jul, 2022

通过自然语言反馈训练，改进代码生成

本文提出了一种基于自然语言反馈的训练算法 ILF 并在神经程序综合任务中证明了其有效性，ILF 只需要少量人工编写的反馈意见就能提高 LLM 的表现，并且比仅仅基于演示训练的方法更有效和更节省样本。

Mar, 2023

StepCoder: 基于编译器反馈的强化学习提升代码生成

使用大型语言模型（LLMs）进行代码生成的研究，引入了一个新的强化学习框架 StepCoder，通过将代码生成任务拆分为完成代码片段的课程，以及屏蔽未执行代码段进行模型优化，成功解决了复杂人类需求下 RL 探索和模型优化的挑战，并通过构建 APPs + 数据集进行了实验验证。

Feb, 2024

PanGu-Coder2: 通过排名反馈提升代码的大规模语言模型

通过 RRTF (Rank Responses to align Test&Teacher Feedback) 框架，我们提出了 PanGu-Coder2，它在 OpenAI HumanEval 基准测试中实现了 62.20% 的 pass@1，并通过对 CoderEval 和 LeetCode 基准测试的广泛评估显示，PanGu-Coder2 始终优于所有之前的 Code LLMs。

Jul, 2023

利用大型语言模型的强化学习修复代码安全漏洞

为了加强和增强通过 Large Language Models 生成的代码的安全性，在本文中，我们提出了一种基于强化学习的程序特定修复方法，结合语义和句法奖励机制，重点关注在代码中增加安全和功能性措施。

Jan, 2024

应用 RLAIF 用于轻量级 LLMs 中的 API 使用的代码生成

使用 AI 反馈的强化学习（RLAIF）已在多个领域展示了巨大的潜力，包括减少 LLM 输出中的伤害、提升文本摘要以及数学推理等。本文引入了一个 RLAIF 框架，用于提高轻量级（小于 1B 参数）LLMs 的代码生成能力，特别关注需要编写适当 API 调用的代码生成任务，并通过专门的提示策略从更大的 LLM（例如 GPT-3.5）中提取 AI 反馈数据，用于训练更小 LLMs 的奖励模型以实现更好的对齐。我们在 Gorilla 数据集上运行实验，并通过 AST、ROUGE 和 Code-BLEU 等多个指标精确评估模型生成的代码的质量，并开发一个能够准确计算其可执行性率的流程。我们的方法显著提升了微调 LLM 基线的性能，使可执行性率提高了 4.5%。值得注意的是，使用 RLAIF 训练的一个更小的 LLM 模型（780M 参数）超过了一个具有 7B 参数的更大的微调基线，使得代码的可执行性率提高了 1.0%。

Jun, 2024

利用大型语言模型的反馈加速机器人操控的强化学习

通过利用大型语言模型的及时反馈，Lafite-RL（语言代理反馈互动式强化学习）框架使强化学习智能体能够有效地学习机器人任务，实验结果表明，Lafite-RL 智能体在自然语言的简单提示设计下，通过大型语言模型的引导在学习效率和成功率方面优于基准模型，凸显了大型语言模型所提供的奖励的功效。

Nov, 2023

性能对齐的 LLM 用于生成高效代码

通过引入强化学习的方法，将代码 LMM 的输出与性能对齐，提高生成代码的期望加速比，并在一组基准任务中展示了 0.9 至 1.6 倍的串行代码速度提升和 1.9 至 4.5 倍的 OpenMP 代码速度提升。

Apr, 2024