学习生成比您的 LLM 更好的结果

Jun, 2023

Learning to Generate Better Than Your LLM

Jonathan D. Chang, Kiante Brantley, Rajkumar Ramamurthy, Dipendra Misra, Wen Sun

TL;DR本研究提出了一种基于强化学习算法的语言模型微调方法，通过与动态黑盒引导语言模型（GPT-3）相互作用，比传统监督学习和 PPO 策略优化算法表现更好，尤其在语义和词汇多样性等方面的指标上有改善。

Abstract

reinforcement learning (RL) has emerged as a powerful paradigm for fine-tuning Large language models (LLMs) for conditional →

reinforcement learning language models fine-tuning text generation chatgpt

发现论文，激发创造

通过强化学习提高自动生成反馈的有效性

基于大语言模型的自动生成反馈在智能辅导系统和在线学习平台中具有潜力来提高许多学生的学习效果，本文针对自动生成和评估反馈的问题，提出了数学反馈评估标准和反馈生成框架，通过强化学习优化反馈的正确性和一致性，并通过案例研究定性分析了生成和评估系统。

Mar, 2024

RL4F: 利用强化学习生成自然语言反馈以修复模型输出

本文提出了一种名为 RL4F 的多智能体协作框架，该框架使用强化学习训练评论生成器，使其能够优化 GPT-3 模型的性能，从而改进模型的输出效果，并在三个数据集上展示了平均提高了约 5% 的文本相似性度量。

May, 2023

强化学习是否适用于自然语言处理：自然语言策略优化的基准、基线和构件

本论文探讨了如何将预先训练的大型语言模型与人类偏好相对齐，提出了一个基于强化学习的模型优化库以及一套基于奖励函数的人类偏好的语言生成任务评估基准，并展示了所提出的自然语言策略优化算法相比于以往的策略梯度方法在具有更好的稳定性和性能。

Oct, 2022

面向基于文本的教育环境的通用智能体: RL 与 LLMs 的整合研究

通过将强化学习与大型语言模型结合，研究了在开放性文本学习环境中增强代理的泛化能力，提出了三种代理类型：基于强化学习的代理、基于大型语言模型的代理和融合两者的混合代理，以提高代理的性能和泛化能力，并通过 PharmaSimText 提供的基准测试验证了研究成果。结果表明，基于强化学习的代理在任务完成方面表现出色，但在提问诊断问题方面有所欠缺；相反，基于大型语言模型的代理在提问诊断问题方面表现较好，但在完成任务方面表现较差；而混合的大型语言模型辅助强化学习代理能够克服这些限制，凸显了将强化学习和大型语言模型相结合在开放性学习环境中开发高性能代理的潜力。

Apr, 2024

基于提示的长度控制生成与强化学习

我们提出了一种基于提示的长度控制方法，通过采用可训练或基于规则的奖励模型来影响大型语言模型的生成，从而实现长度可控的生成，该方法在广泛适用于类似 GPT 的大型语言模型的同时，显著提高了摘要任务中基于提示的长度控制的准确性。

Aug, 2023

从 Tarzan 到 Tolkien：控制 LLMs 的语言熟练程度用于内容生成

探讨利用大型语言模型（LLMs）控制文本难度的问题，在不完全精通的终端用户环境中（如语言学习者），通过使用新颖框架评估了几种关键方法的效果，包括少样本提示、监督微调和强化学习（RL），使用 GPT-4 和 LLama2-7B、Mistral-7B 等开源替代品。我们的发现揭示了在使用基于提示的策略时，GPT-4 和开源模型之间存在很大的性能差距。然而，我们展示了如何通过精调和 RL 对齐的谨慎组合来弥合这一差距。我们最佳的模型，CALM（CEFR 对齐语言模型），在仅成本的一小部分下超越了 GPT-4 和其他策略的性能。我们通过小规模的人工研究进一步验证了我们结果的质量。

Jun, 2024

基于生成强化的变压器的指令上下文增强方法

利用人类反馈的强化学习从 PPO 出发，ICE-GRT 在特定领域任务中展示了出色的能力，同时保持了通用任务性能，在小型模型中表现了分析能力的下降。

Jan, 2024

使用强化学习对语言模型进行私密对齐

通过强化学习和差分隐私，研究大型语言模型的隐私保护对齐，实验结果验证了该方法在保护隐私的同时提供了竞争力的效果。

Oct, 2023

优化领域聊天机器人的 RAG 强化学习

通过采用基于 RAG 的 RL 优化方法，使用信息熵损失函数构建了一个使用 FAQ 数据回答用户查询的聊天机器人，该模型在检索准确性和领域外查询检测方面表现显著优于通用公开嵌入模型，同时能实现成本节省和细微的准确性改善。

Jan, 2024

RL-GPT: 集成强化学习和代码为策略

利用两级分层框架 RL-GTP，在具备高效能 coding 能力的慢速代理和执行编码任务的快速代理之间无缝融合，以高效地处理涉及复杂逻辑和精确控制的实体任务，并取得了在 Minecraft 游戏中以及指定的 MineDojo 任务上的优越表现。

Feb, 2024