通过语言 - 策略双向调整构建开放式具身代理

Dec, 2023

通过语言 - 策略双向调整构建开放式具身代理

Building Open-Ended Embodied Agent via Language-Policy Bidirectional Adaptation

Shaopeng Zhai, Jie Wang, Tianyi Zhang, Fuxian Huang, Qi Zhang...

TL;DR通过合作训练预训练语言模型（LLM）和增强学习（RL）模型来构建具备理解任意人类指令能力的开放式学习智能体，该实现分为两个阶段：通过微调 LLM 将人类指令转化为结构化目标，以及通过课程训练基于目标的 RL 策略来执行任意目标；协作训练使 LLM 和 RL 策略相互适应，实现在指令空间上的开放性。在具有复杂且广泛目标空间的对抗战 FPS 游戏 Contra 上进行的实验表明，使用 OpenContra 训练的智能体能够理解任意人类指令，并以高完成率完成目标，这证明 OpenContra 可能是构建开放式具身智能体的第一个实用解决方案。

Abstract

Building open-ended learning agents involves challenges in pre-trained language model (LLM) and reinforcement learning (RL) approaches. LLMs struggle with context-specific real-time interactions, while RL methods

open-ended learning pre-trained language model reinforcement learning co-training framework embodied agents

发现论文，激发创造

面向人工智能协同的语言指导强化学习

在缺乏高质量人类行为数据的情况下，使用预训练的大型语言模型生成人类语言指令的先验策略并规范化强化学习目标可以帮助人工智能代理与人类协作，并在多智能体强化学习问题中实现人工智能代理与人类偏好一致的均衡解。案例中验证了该框架的有效性。

Apr, 2023

使用强化学习进行开放式对话的动态规划

本研究利用强化学习技术结合最先进的自然语言理解模型创造了一个实时的对话系统，并在使用谷歌智能助手的实验中，使用众包数据进行训练，显著超越了强化模型，证明其对于自然人对话有较高的开放性和可行性。

Jul, 2022

开放式任务空间中的人类时间尺度适应

本文介绍了一种训练 RL 代理器的方法，通过使用 meta-reinforcement 学习、基于注意力的内存结构和有效的自动课程表，该代理器可以快速适应开放式的 3D 问题，并具有自适应性。

Jan, 2023

通过从文本的迁移学习进行深度强化学习的人类指令遵循

通过使用预先训练的文本语言模型（BERT），我们提出了一种简单的方法来训练使用深度 RL 的指令跟踪代理，以适应自然人指令，从而在人类给出自然指令的情况下，实现从合成模板命令到指令的零 - shot 传输。

May, 2020

通过 RL 对想象中的对话进行零样本目标导向对话

通过使用强化学习进行交互式对话的目标导向任务，本研究提出利用大型语言模型生成可能的交互示例，再通过强化学习算法优化这些示例，以实现更优化的交互能力，从而在教学和偏好引导等不同目标导向对话任务中实现了最新的性能。

Nov, 2023

大型语言模型用于具体任务的可拓展性策略

通过大型语言模型 (LLM) 以及强化学习技术，我们开发了一种名为 LLaRP 的方法，使得 LLM 可以作为具有推广性的策略应用于具体视觉任务中，能够忽略任务指令的复杂改写并生成新的最佳行为，在未见过的任务中达到了其他常见的学习基线或零样本 LLM 应用的 1.7 倍成功率，并发布了一个名为 “Language Rearrangement” 的新基准测试数据集，用于研究基于语言、多任务和具体化 AI 问题。

Oct, 2023

真知源于实践：通过强化学习使 LLMs 与具身环境对齐

通过将大型语言模型（LLMs）作为决策制定代理部署到 RL 中，我们提出了 TWOSOME，这是一个新颖的在线框架，无需准备数据集或环境先验知识，使 LLMs 能够高效地与具体环境进行交互和对齐。在广泛的实验中，我们评估了 TWOSOME 的性能，结果表明 TWOSOME 在经典决策制定环境和模拟家庭环境中均显著提高了样本效率和性能，并展示了优越的一般化能力和原始能力的保持。

Jan, 2024

走向基础模型统一的智能体

通过在强化学习代理中嵌入和利用语言模型和视觉语言模型的能力，我们设计了一个框架，将语言作为核心推理工具，能够处理一系列强化学习挑战，如有效的探索、重用经验数据、调度技能以及从观察中学习，从而改进了在模拟的机器人操作环境中的性能，并展示了如何利用学到的技能解决新任务或模仿人类专家视频。

Jul, 2023

GLIDE-RL: 基于强化学习的通过演示进行语言指导

通过多个教师 - 学生代理的课程学习框架，GLIDE-RL 提出了一种训练自然语言指令遵循的强化学习代理的新算法，通过利用强化学习、课程学习、连续学习和语言模型的进展，能够适应以前未见过的语言指令并验证了其有效性。

Jan, 2024

RLAdapter: 在开放环境中将大型语言模型与强化学习相结合

RLAdapter 通过引入一个适配器模型，在强化学习和大型语言模型之间建立更好的联系，通过在 RL 代理的训练过程中生成的信息来微调轻量级语言模型，从而在适应下游任务方面提供更好的指导，并在 Crafter 环境中实验表明 RLAdapter 超过了基线模型，且我们的框架下的代理展现出了常识行为。

Sep, 2023