RL-GPT: 集成强化学习和代码为策略

Feb, 2024

RL-GPT: 集成强化学习和代码为策略

RL-GPT: Integrating Reinforcement Learning and Code-as-policy

Shaoteng Liu, Haoqi Yuan, Minda Hu, Yanwei Li, Yukang Chen...

TL;DR利用两级分层框架 RL-GTP，在具备高效能 coding 能力的慢速代理和执行编码任务的快速代理之间无缝融合，以高效地处理涉及复杂逻辑和精确控制的实体任务，并取得了在 Minecraft 游戏中以及指定的 MineDojo 任务上的优越表现。

Abstract

large language models (LLMs) have demonstrated proficiency in utilizing various tools by coding, yet they face limitations in handling intricate logic and precise control. In embodied tasks, high-level planning i

large language models embodied tasks hierarchical framework reinforcement learning minecraft game

发现论文，激发创造

RoboGPT：为日常指令任务做出智能长期决策的智能代理

在这篇研究论文中，我们提出了一种名为 RoboGPT 的机器人代理，通过两个模块（基于 LLMs 的规划与重新规划，以及专为子目标设计的 RoboSkill）来完成日常任务的具体决策。我们使用了一份新的机器人数据集和 RoboGPT 来增强基于 LLMs 的规划，并成功在诸多任务中超越了目前的最先进方法。

Nov, 2023

学习生成比您的 LLM 更好的结果

本研究提出了一种基于强化学习算法的语言模型微调方法，通过与动态黑盒引导语言模型（GPT-3）相互作用，比传统监督学习和 PPO 策略优化算法表现更好，尤其在语义和词汇多样性等方面的指标上有改善。

Jun, 2023

SPRING: GPT-4 通过学习论文和推理胜过强化学习算法

提出了一种使用大型语言模型的新方法 ——SPRING 框架，通过读取游戏的原始学术论文，利用所学知识进行推理和游戏，探讨了该方法在 Crafter 开放世界环境下的应用以及其在完成高级轨迹上的潜力。

May, 2023

GameGPT: 游戏开发的多智能体协作框架

本研究提出了 GameGPT，一个多智能体协作框架，以自动化游戏开发。通过双重协作和分层方法，并应用多种内部词汇表，在规划、任务识别和实施阶段缓解幻觉和冗余问题。此外，还引入了一种解耦方法，以实现更精确的代码生成。

Oct, 2023

大型语言模型用于具体任务的可拓展性策略

通过大型语言模型 (LLM) 以及强化学习技术，我们开发了一种名为 LLaRP 的方法，使得 LLM 可以作为具有推广性的策略应用于具体视觉任务中，能够忽略任务指令的复杂改写并生成新的最佳行为，在未见过的任务中达到了其他常见的学习基线或零样本 LLM 应用的 1.7 倍成功率，并发布了一个名为 “Language Rearrangement” 的新基准测试数据集，用于研究基于语言、多任务和具体化 AI 问题。

Oct, 2023

学习在场景图上推理：将 GPT-2 微调为机器人语言模型，用于基于场景的任务规划的案例研究

本文研究了如何通过 GPT-2 等大型语言模型将人类请求转化为机器人可执行的计划，并探讨了 LLM 的长期任务规划的适用性和通用性，结果表明 LLM 可有效地执行长期任务规划，展示了神经符号规划方法在机器人领域的应用前景。

May, 2023

3D-GPT：利用大型语言模型进行程序化 3D 建模

基于 3D-GPT 的指令驱动的 3D 建模框架，利用语言模型实现了高效的自动内容创作，简化初始场景描述并从文本中提取参数值，与 3D 软件无缝集成，为未来场景生成和动画的进一步发展提供了基础。

Oct, 2023

记住过去，明确下一步怎么做

使用中等大小的大型语言模型（GPT-J 6B 参数），计划在科学世界中为模拟机器人实现 30 类目标，结果发现大语言模型在性能上优于强化学习，而且性能表现因任务而异。

Oct, 2023

从像素和自然语言指令中学习解决体素建筑任务

采用预训练语言模型生成行动计划是一种很有前途的研究策略，本文提出了一种新的方法，将语言模型与强化学习相结合，用于在类似 Minecraft 的环境中按照自然语言指令构建对象，在 IGLU 2022 竞赛中形成了强化学习基线。

Nov, 2022

LLM-ARK：大型语言模型在知识图谱推理中的应用：深度强化学习

LLM-ARK 是一种基于大型语言模型和知识图谱推理的代理技术，通过 FTE 提示和 PPO 在线策略梯度强化学习算法，能够有效地提供多跳推理问题的高效解决方法。

Dec, 2023