RLTF:来自单元测试反馈的强化学习
自动获取适用于代码合成模型的强化学习训练数据,结合简单而有效的演员 - 评论家强化学习训练方案,提高预训练代码语言模型的性能。
Oct, 2023
通过从静态质量度量中进行强化学习,我们提出了一种新技术 RLSQM,用于优化大型语言模型生成的代码测试质量,并通过比较实验结果证明了该方法的有效性。
Oct, 2023
通过反馈机制在 Large Language Models 中引入编译器和参考程序的验证,提高了自动生成代码的正确性和可执行性,实验结果表明 RLCF 提高了 LLMs 在 Java MBJP 和 MathQA 任务中的表现。
May, 2023
CodeRL 使用预训练的语言模型和深度强化学习框架解决了程序合成中标准的有监督微调的一些局限,同时在 APPs 和 MBPP 基准测试中创造了新的 SOTA 结果。
Jul, 2022
我们提出了一种名为符号反馈强化学习(RLSF)的新型训练 / 微调范式,旨在增强 LLMs 的推理能力,并通过使用证明等符号工具来提供精确的奖励信号,从而从传统方法中克服了局限性。
May, 2024
通过利用大型语言模型的及时反馈,Lafite-RL(语言代理反馈互动式强化学习)框架使强化学习智能体能够有效地学习机器人任务,实验结果表明,Lafite-RL 智能体在自然语言的简单提示设计下,通过大型语言模型的引导在学习效率和成功率方面优于基准模型,凸显了大型语言模型所提供的奖励的功效。
Nov, 2023
使用大型语言模型(LLMs)进行代码生成的研究,引入了一个新的强化学习框架 StepCoder,通过将代码生成任务拆分为完成代码片段的课程,以及屏蔽未执行代码段进行模型优化,成功解决了复杂人类需求下 RL 探索和模型优化的挑战,并通过构建 APPs + 数据集进行了实验验证。
Feb, 2024
通过使用增强学习直接生成基础指令数据集,TeaMs-RL 方法能够在单一微调步骤中提高大型语言模型的能力,减少人为参与需求、模型查询次数以及提高模型隐私保护能力。
Mar, 2024
本文提出了一种基于自然语言反馈的训练算法 ILF 并在神经程序综合任务中证明了其有效性,ILF 只需要少量人工编写的反馈意见就能提高 LLM 的表现,并且比仅仅基于演示训练的方法更有效和更节省样本。
Mar, 2023