RLTF：来自单元测试反馈的强化学习

Jul, 2023

RLTF：来自单元测试反馈的强化学习

RLTF: Reinforcement Learning from Unit Test Feedback

Jiate Liu, Yiqin Zhu, Kaiwen Xiao, Qiang Fu, Xiao Han...

TL;DR利用强化学习提升大型语言模型的程序合成生成能力，通过采用多粒度的单元测试反馈信号来指导模型生成高质量代码。

Abstract

The goal of program synthesis, or code generation, is to generate executable code based on given descriptions. Recently, there has been an increasing number of studies employing →

program synthesis code generation reinforcement learning large language models unit test feedback

发现论文，激发创造

代码合成的自动生成单元测试数据与演员 - 评论者强化学习

自动获取适用于代码合成模型的强化学习训练数据，结合简单而有效的演员 - 评论家强化学习训练方案，提高预训练代码语言模型的性能。

Oct, 2023

基于自动反馈的强化学习高质量单元测试生成

通过从静态质量度量中进行强化学习，我们提出了一种新技术 RLSQM，用于优化大型语言模型生成的代码测试质量，并通过比较实验结果证明了该方法的有效性。

Oct, 2023

使用编译器生成的强化学习反馈来调整代码模型

通过反馈机制在 Large Language Models 中引入编译器和参考程序的验证，提高了自动生成代码的正确性和可执行性，实验结果表明 RLCF 提高了 LLMs 在 Java MBJP 和 MathQA 任务中的表现。

May, 2023

利用强化学习和大型语言模型进行代码优化

提出了一种建立在大型语言模型和强化学习基础上的框架，用于减少代码优化的复杂性并提供更高的效率和可靠性。

Dec, 2023

CodeRL: 通过预训练模型和深度强化学习掌握代码生成

CodeRL 使用预训练的语言模型和深度强化学习框架解决了程序合成中标准的有监督微调的一些局限，同时在 APPs 和 MBPP 基准测试中创造了新的 SOTA 结果。

Jul, 2022

RLSF: 强化学习来自符号反馈

我们提出了一种名为符号反馈强化学习（RLSF）的新型训练 / 微调范式，旨在增强 LLMs 的推理能力，并通过使用证明等符号工具来提供精确的奖励信号，从而从传统方法中克服了局限性。

May, 2024

利用大型语言模型的反馈加速机器人操控的强化学习

通过利用大型语言模型的及时反馈，Lafite-RL（语言代理反馈互动式强化学习）框架使强化学习智能体能够有效地学习机器人任务，实验结果表明，Lafite-RL 智能体在自然语言的简单提示设计下，通过大型语言模型的引导在学习效率和成功率方面优于基准模型，凸显了大型语言模型所提供的奖励的功效。

Nov, 2023

StepCoder: 基于编译器反馈的强化学习提升代码生成

使用大型语言模型（LLMs）进行代码生成的研究，引入了一个新的强化学习框架 StepCoder，通过将代码生成任务拆分为完成代码片段的课程，以及屏蔽未执行代码段进行模型优化，成功解决了复杂人类需求下 RL 探索和模型优化的挑战，并通过构建 APPs + 数据集进行了实验验证。

Feb, 2024

TeaMs-RL：通过强化学习教授 LLMs 更好地自我指导

通过使用增强学习直接生成基础指令数据集，TeaMs-RL 方法能够在单一微调步骤中提高大型语言模型的能力，减少人为参与需求、模型查询次数以及提高模型隐私保护能力。

Mar, 2024

通过自然语言反馈训练，改进代码生成

本文提出了一种基于自然语言反馈的训练算法 ILF 并在神经程序综合任务中证明了其有效性，ILF 只需要少量人工编写的反馈意见就能提高 LLM 的表现，并且比仅仅基于演示训练的方法更有效和更节省样本。

Mar, 2023