分层强化学习用于具有子任务依赖性的零样本普适性

Jul, 2018

分层强化学习用于具有子任务依赖性的零样本普适性

Hierarchical Reinforcement Learning for Zero-shot Generalization with Subtask Dependencies

Sungryull Sohn, Junhyuk Oh, Honglak Lee

TL;DR提出了一种新的强化学习问题，该问题需要代理在一个由子任务图描述的先前未见的环境中进行泛化，我们提出了一种神经子任务图求解器，通过使用递归神经网络嵌入来编码子任务图，并用基于梯度的策略，图奖励传播来预训练它，进一步通过演员 - 评论家方法微调它，实验结果表明，我们的代理可以进行复杂的推理，找到执行子任务图的近似最优方式，并且在未见的子任务图上具备很好的泛化性能。

Abstract

We introduce a new rl problem where the agent is required to generalize to a previously-unseen environment characterized by a subtask graph which describes a set of subtasks and their dependencies. Unlike existin

rl subtask graph neural subtask graph solver actor-critic method generalization

发现论文，激发创造

自主推断子任务依赖关系的元强化学习

本文提出了一种新颖的少样本强化学习问题，其通过任务的子任务图描述一组子任务及其依赖关系，我们开发了一种元学习器，即消息传递子任务图推理器（MSGI），该学习器通过与环境交互推断任务的潜在参数，并采用上限置信界中得到启发的内在奖励以促进有效探索，实验结果表明该方法能够准确推断潜在任务参数，并比现有的元强化学习和分层强化学习方法更有效地适应。

Jan, 2020

多任务深度强化学习中的零样本任务泛化

在强化学习中，我们介绍了一种新的强化学习问题，其中代理需要在学习解决子任务的有用技能后学习执行指令序列。我们考虑到先前未见的指令和更长的指令序列的泛化，为此，我们提出了一种基于类比的新目标和一个层次结构架构，并提出了一个新的神经网络架构来解决延迟奖励问题，实验结果表明这些提议对于泛化到较长指令序列以及未见指令是至关重要的。

Jun, 2017

针对少样本任务概括的快速推理和组合任务结构转移

本研究提出基于多任务子任务图推断的少样本强化学习方法，通过推断训练任务的高层子任务图结构，提高在测试任务中的任务推断和适应能力，实验结果表明其能够学习并利用任务的潜在共同结构，比其他现有算法如元强化学习、分层强化学习和启发式智能体等更快地适应未见过的任务。

May, 2022

学习参数化的任务结构以实现对未知实体的泛化

通过一阶逻辑和子任务实体来建模子任务依赖关系，学习零样本实体属性，并且比以前的方法更有效地学习层次和组合任务的潜在结构，示范 PSGI 可以泛化模拟在适应期间未见到过的子任务结构。

Mar, 2022

通过分层强化学习在基于文本的游戏中实现泛化

本文介绍了一种基于知识图谱的 RL 代理的层次化框架，通过在高层次执行元策略将整个游戏分解为一组由文本目标指定的子任务，并通过知识图谱选择其中一个，然后在低层次执行子策略进行目标条件强化学习，实验结果表明，所提出的方法具有较好的泛化性能。

Sep, 2021

带有目标关系图的层次化和部分可观察的目标驱动策略学习

本研究提出一种新型的基于两层分层强化学习的目标驱动任务解决方法，使用 Goals Relational Graph 优化部分可观察的目标导向任务，例如目标驱动视觉导航，实验结果显示该方法在新环境和新目标上表现出卓越的泛化性能。

Mar, 2021

自然语言子目标的层次强化学习

我们提出了一种新颖的方法，利用人类在 3D 实体环境中解决任务时使用的无约束自然语言数据，通过软约束目标空间，对一组长期任务进行层次强化学习，从而实现在现实或开放环境中实现目标导向行为的挑战。

Sep, 2023

神经任务图：从单一视频演示推广到未知任务

通过使用神经任务图网络作为中间表示，我们成功地在两个复杂任务中将任务的组成结构显式融合到模型中，从而实现任务间的泛化，提高数据效率以及无需密集分层监督而实现强泛化能力，并在 JIGSAWS 手术数据集上展示了良好的任务结构预测性能。

Jul, 2018

通过自我对抗学习用于层次强化学习的目标嵌入

本研究旨在应对层次化强化学习中确定合适的低级策略的挑战，提出基于不对称自我对弈的无监督学习方案，自动学习环境中子目标的好的表示和可执行的低级策略，从而高级策略可以通过生成连续子目标向量序列来指导低级策略。实验结果表明，该模型在 Mazebase 和 Mujoco 环境中获得了令人信服的性能提升。

Nov, 2018

三维环境下的子等变图强化学习

本文提出了一种新型的 3D-SGRL 体系结构，引入 Subequivariant Transformer (SET) 及几何对称性，用于广义物体的 RL 训练；在单任务、多任务和零样本泛化情形中验证过程证明了算法比现有方法更具实用性。

May, 2023