使用语言的交互式分层指导

AAAIOct, 2021

Interactive Hierarchical Guidance using Language

Bharat Prakash, Nicholas Waytowich, Tim Oates, Tinoosh Mohsenin

TL;DR使用语言命令实现上下层结构分离的强化学习方法，在长期规划任务中能够有效提高任务样本效率并保持可解释性和人工干预能力。

Abstract

reinforcement learning has been successful in many tasks ranging from robotic control, games, energy management etc. In complex real world environments with sparse rewards and long task horizons, sample efficiency is still a major challenge. Most complex tasks can be easily decomposed

reinforcement learning hierarchical structure language commands long horizon planning interpretability

发现论文，激发创造

自然语言子目标的层次强化学习

我们提出了一种新颖的方法，利用人类在 3D 实体环境中解决任务时使用的无约束自然语言数据，通过软约束目标空间，对一组长期任务进行层次强化学习，从而实现在现实或开放环境中实现目标导向行为的挑战。

Sep, 2023

向人类请教：利用人类指令提升强化学习的泛化能力

本文提出通过使用自然语言指令和行动轨迹演示来自动分解分层任务，以解决在稀疏奖励的强化学习设置中的复杂多任务问题，并证明人类演示有助于解决最复杂的任务，同时允许该模型再未见数据的情况下推广学习，从而使训练好的代理人具有可解释的行为。

Nov, 2020

多任务强化学习中的层次和可解释技能获取

本文提出了一种用于有效的多任务强化学习的新框架，该框架可以训练代理人使用分层策略，决定何时使用先前学习的策略和何时学习新技能。该方法通过给代理人提供随机时间语法来帮助代理人学习分层策略中必要的复杂时间依赖关系，并在 Minecraft 游戏中进行了验证。

Dec, 2017

语言作为层次深度强化学习的抽象

本文提出了使用语言作为抽象概念的层次强化学习方法，通过学习基本概念和子技能来解决时间延长的任务，构建了开源对象交互环境，证明了采用这种方法，代理可以从原始像素观察中学习解决多样化的任务，语言的组合性质使得学习多种子技能变得关键。

Jun, 2019

通过分层强化学习在基于文本的游戏中实现泛化

本文介绍了一种基于知识图谱的 RL 代理的层次化框架，通过在高层次执行元策略将整个游戏分解为一组由文本目标指定的子任务，并通过知识图谱选择其中一个，然后在低层次执行子策略进行目标条件强化学习，实验结果表明，所提出的方法具有较好的泛化性能。

Sep, 2021

通过元学习用语言指导政策

本文提出了一种交互式的任务规范问题形式，通过自然语言指令和一系列语言修正来引导自主代理获得新技能，实现快速获取新技能，显著优于直接非交互式指令跟随。

Nov, 2018

基于像素的深度分层规划

通过在一个学习好的世界模型的潜在空间 planning，我们引入了一种名叫 Director 的实用方法，直接从像素学习分层行为，无需手动指定目标空间或子任务，并在具有稀疏奖励的任务中表现超越了探索方法。

Jun, 2022

精确高效地解读不同粒度的人机指令

本研究通过将命令与层级规划框架中所有可用的任务或子任务联系起来，实现了一种能够在多个抽象层级上解释语言的模型。该方法提高了命令的准确性和机器人的响应速度，使机器人可以高效地在不同的任务抽象层次上进行规划。

Apr, 2017

战略对话的分层文本生成与规划

本论文介绍了一种学习对话信息表征、提高决策效率的方法，通过解耦对话表述中的语义和语言实现，使用学习到的表征完成对话生成、规划和增强学习等任务，在实验中效果比之前的工作更佳。

Dec, 2017

喊叫您的机器人：从语言纠正中实时改进

通过语言反馈不断改进高层策略，使机器人在复杂的、需要长程规划的任务中表现得更加出色，无需额外的远程操作。

Mar, 2024