LMRL Gym：基于语言模型的多轮强化学习基准

Nov, 2023

LMRL Gym：基于语言模型的多轮强化学习基准

LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language Models

Marwa Abdulhai, Isadora White, Charlie Snell, Charles Sun, Joey Hong...

TL;DR大型语言模型和强化学习的协作为创建目标导向代理提供了潜力，但需要稳定可靠的强化学习算法。本研究引入了 LMRL-Gym 评估多轮 RL 针对 LLMs 的基准，以及一个包含基本工具包的开源研究框架，用于开始进行多轮 RL 的离线值基和策略基 RL 方法。该基准由 8 个不同的语言任务组成，需要多轮语言交互，涵盖开放对话和文本游戏的多种任务。

Abstract

large language models (LLMs) provide excellent text-generation capabilities, but standard prompting and generation methods generally do not lead to intentional or goal-directed agents and might necessitate consid

large language models reinforcement learning multi-turn conversations goal-directed agents lmrl-gym benchmark

发现论文，激发创造

基于 LLM 的多智能体强化学习：当前和未来方向

近年来，大型语言模型在问题回答、算术问题解决和诗歌创作等各种任务中展示了强大的能力。尽管关于以大型语言模型为代理的研究表明它可以应用于强化学习并取得不错的结果，但将基于大型语言模型的强化学习扩展到多智能体系统并不容易，因为许多方面，如智能体之间的协调和通信，在单智能体的强化学习框架中没有得到考虑。为了激发更多关于基于大型语言模型的多智能体强化学习的研究，本文调查了现有的基于大型语言模型的单智能体和多智能体强化学习框架，并提供了未来研究的潜在方向。特别关注多智能体共同目标合作任务和它们之间的通信，还考虑了语言组件在框架中实现的人机交互场景。

May, 2024

ArCHer: 通过分层多轮强化学习训练语言模型代理

通过采用分层强化学习方法并运行两个强化学习算法（高层和低层），本文开发了一种用于 fine-tuning 大型语言模型的多轮强化学习算法框架，能够在实现多轮任务以及获取延迟奖励的效率和性能上得到显著提升。

Feb, 2024

通过 RL 对想象中的对话进行零样本目标导向对话

通过使用强化学习进行交互式对话的目标导向任务，本研究提出利用大型语言模型生成可能的交互示例，再通过强化学习算法优化这些示例，以实现更优化的交互能力，从而在教学和偏好引导等不同目标导向对话任务中实现了最新的性能。

Nov, 2023

MINT: 使用工具和语言反馈评估多轮交互中的 LLMs

通过使用工具和自然语言反馈，MINT 基准测试评估了大型语言模型在解决具有多回合交互的任务时的能力，并从 20 个开源和闭源的语言模型分析中发现，在工具交互和自然语言反馈的情况下，LLMs 的性能有所提升。

Sep, 2023

大规模语言模型的强化学习问题解决

使用大型语言模型作为强化学习代理以解决对话式强化学习问题，通过提出的提示技术，演示了如何迭代引导语言模型学习和优化特定强化学习任务的策略，并通过两个具体案例研究展示了该方法的实用性。

Apr, 2024

LARG，基于语言的自动奖励和目标生成

本研究介绍了一个基于自然语言生成奖励和目标函数的机器人操作自动化训练方法，运用 Goal-conditioned 和 MTRL 技术，使用 Large Language Models，针对机器人操作的可扩展性问题进行了实验验证。

Jun, 2023

利用大型语言模型的反馈加速机器人操控的强化学习

通过利用大型语言模型的及时反馈，Lafite-RL（语言代理反馈互动式强化学习）框架使强化学习智能体能够有效地学习机器人任务，实验结果表明，Lafite-RL 智能体在自然语言的简单提示设计下，通过大型语言模型的引导在学习效率和成功率方面优于基准模型，凸显了大型语言模型所提供的奖励的功效。

Nov, 2023

TeaMs-RL：通过强化学习教授 LLMs 更好地自我指导

通过使用增强学习直接生成基础指令数据集，TeaMs-RL 方法能够在单一微调步骤中提高大型语言模型的能力，减少人为参与需求、模型查询次数以及提高模型隐私保护能力。

Mar, 2024

BotChat: 评估 LLMs 在进行多轮对话方面的能力

利用 GPT-4 对人类风格的多轮对话进行评估，发现大语言模型在生成多轮对话方面具有出色的质量，明显优于其他模型。

Oct, 2023

基于大型语言模型增强强化学习的调研：概念，分类和方法

大规模语言模型在增强学习中具有广泛的预训练知识和高水平的通用能力，本文对现有文献进行了综述，概括了大规模语言模型增强学习与传统增强学习方法的特点，并提出了一个结构化的分类法来系统地分类大规模语言模型在增强学习中的功能和方法，并讨论了其潜在应用、前景机会和挑战。

Mar, 2024