在虚拟环境中的目标条件强化学习指令跟踪

Jul, 2024

在虚拟环境中的目标条件强化学习指令跟踪

Instruction Following with Goal-Conditioned Reinforcement Learning in Virtual Environments

Zoya Volovikova, Alexey Skrynnik, Petr Kuderov, Aleksandr I. Panov

TL;DR本研究提出了一个层次化的框架，结合大型语言模型的深度语言理解和强化学习代理的自适应执行能力，以使人工智能代理能够在虚拟环境中执行复杂的语言指令，并成功实现所需的结果。该框架在两个不同的环境中展示了其有效性：在IGLU中，代理被指示建造结构；在Crafter中，代理根据语言指令在周围环境中执行任务并与物体交互。

Abstract

In this study, we address the issue of enabling an artificial intelligence agent to execute complex language instructions within virtual environm

发现论文，激发创造

多任务强化学习中的层次和可解释技能获取

本文提出了一种用于有效的多任务强化学习的新框架，该框架可以训练代理人使用分层策略，决定何时使用先前学习的策略和何时学习新技能。该方法通过给代理人提供随机时间语法来帮助代理人学习分层策略中必要的复杂时间依赖关系，并在Minecraft游戏中进行了验证。

Dec, 2017

通过建模奖励来学习理解目标规格

提出了一种基于奖励模型的框架，它使得机器学习代理能学习到语言指令，并通过这些指令执行任务，而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离，在简单的网格世界中，使代理能够学习一系列涉及块的交互和对空间关系的理解的指令，且无需新的专家数据就可以适应环境的变化。

Jun, 2018

通过元学习用语言指导政策

本文提出了一种交互式的任务规范问题形式，通过自然语言指令和一系列语言修正来引导自主代理获得新技能，实现快速获取新技能，显著优于直接非交互式指令跟随。

Nov, 2018

从语言到目标：基于视觉的逆强化学习指令跟随

本研究探讨了使用反强化学习将语言命令作为奖励函数的问题，并提出了一种将语言命令作为深度神经网络表示的奖励函数的学习算法，即语言条件奖励学习（LC-RL）。实验结果表明，与直接学习语言条件策略相比，使用LC-RL学习的奖励可以更好地在新任务和环境中进行迁移。

Feb, 2019

通过从文本的迁移学习进行深度强化学习的人类指令遵循

通过使用预先训练的文本语言模型（BERT），我们提出了一种简单的方法来训练使用深度RL的指令跟踪代理，以适应自然人指令，从而在人类给出自然指令的情况下，实现从合成模板命令到指令的零-shot传输。

May, 2020

向人类请教：利用人类指令提升强化学习的泛化能力

本文提出通过使用自然语言指令和行动轨迹演示来自动分解分层任务，以解决在稀疏奖励的强化学习设置中的复杂多任务问题，并证明人类演示有助于解决最复杂的任务，同时允许该模型再未见数据的情况下推广学习，从而使训练好的代理人具有可解释的行为。

Nov, 2020

从像素和自然语言指令中学习解决体素建筑任务

采用预训练语言模型生成行动计划是一种很有前途的研究策略，本文提出了一种新的方法，将语言模型与强化学习相结合，用于在类似Minecraft的环境中按照自然语言指令构建对象，在IGLU 2022竞赛中形成了强化学习基线。

Nov, 2022

内部-外显任务语言发展与翻译驱动的自然语言指导下的强化学习

采用内部-外部模式的自然语言控制强化学习方法使用任务语言与谓词表示来学习多个断言以模拟对象关系，并将翻译器用于自然语言到任务语言的转换，有效地提高13.4%的成功率和适应性，并成为有效的任务抽象形式，与层次强化学习相容。

Feb, 2023

面向人工智能协同的语言指导强化学习

在缺乏高质量人类行为数据的情况下，使用预训练的大型语言模型生成人类语言指令的先验策略并规范化强化学习目标可以帮助人工智能代理与人类协作，并在多智能体强化学习问题中实现人工智能代理与人类偏好一致的均衡解。案例中验证了该框架的有效性。

Apr, 2023

通过语言-策略双向调整构建开放式具身代理

通过合作训练预训练语言模型（LLM）和增强学习（RL）模型来构建具备理解任意人类指令能力的开放式学习智能体，该实现分为两个阶段：通过微调LLM将人类指令转化为结构化目标，以及通过课程训练基于目标的RL策略来执行任意目标；协作训练使LLM和RL策略相互适应，实现在指令空间上的开放性。在具有复杂且广泛目标空间的对抗战FPS游戏Contra上进行的实验表明，使用OpenContra训练的智能体能够理解任意人类指令，并以高完成率完成目标，这证明OpenContra可能是构建开放式具身智能体的第一个实用解决方案。

Dec, 2023