自主推断子任务依赖关系的元强化学习

ICLRJan, 2020

自主推断子任务依赖关系的元强化学习

Meta Reinforcement Learning with Autonomous Inference of Subtask Dependencies

Sungryull Sohn, Hyunjae Woo, Jongwook Choi, Honglak Lee

TL;DR本文提出了一种新颖的少样本强化学习问题，其通过任务的子任务图描述一组子任务及其依赖关系，我们开发了一种元学习器，即消息传递子任务图推理器（MSGI），该学习器通过与环境交互推断任务的潜在参数，并采用上限置信界中得到启发的内在奖励以促进有效探索，实验结果表明该方法能够准确推断潜在任务参数，并比现有的元强化学习和分层强化学习方法更有效地适应。

Abstract

We propose and address a novel few-shot rl problem, where a task is characterized by a subtask graph which describes a set of subtasks and their dependencies that are unknown to the agent. The agent needs to quickly adapt to the task over few episodes during adaptation phase to maximiz

few-shot rl subtask graph inference meta-learner upper confidence bound efficient exploration

发现论文，激发创造

针对少样本任务概括的快速推理和组合任务结构转移

本研究提出基于多任务子任务图推断的少样本强化学习方法，通过推断训练任务的高层子任务图结构，提高在测试任务中的任务推断和适应能力，实验结果表明其能够学习并利用任务的潜在共同结构，比其他现有算法如元强化学习、分层强化学习和启发式智能体等更快地适应未见过的任务。

May, 2022

分层强化学习用于具有子任务依赖性的零样本普适性

提出了一种新的强化学习问题，该问题需要代理在一个由子任务图描述的先前未见的环境中进行泛化，我们提出了一种神经子任务图求解器，通过使用递归神经网络嵌入来编码子任务图，并用基于梯度的策略，图奖励传播来预训练它，进一步通过演员 - 评论家方法微调它，实验结果表明，我们的代理可以进行复杂的推理，找到执行子任务图的近似最优方式，并且在未见的子任务图上具备很好的泛化性能。

Jul, 2018

元强化学习作为任务推断

本文提出一种在元强化学习中用于解决任务信息受限问题的方法，通过利用各种特权信息，分别学习策略和任务信念来解决部分可观测马尔可夫决策问题，从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。

May, 2019

无监督元学习强化学习

本研究提出了一系列用于强化学习的无监督元学习算法，以解决通过任务提案进行任务训练而非手动任务设计所带来的算法设计负担，并得出这些程序具有优异性能的结论。

Jun, 2018

基于自监督任务表示学习的元强化学习

本文提出了 MoSS 算法，它是基于上下文自监督任务表示学习的元强化学习算法，能够在非参数任务分布、非静态任务和分布任务等方面实现先进的数据效率和适应能力。

Apr, 2023

多任务深度强化学习中的零样本任务泛化

在强化学习中，我们介绍了一种新的强化学习问题，其中代理需要在学习解决子任务的有用技能后学习执行指令序列。我们考虑到先前未见的指令和更长的指令序列的泛化，为此，我们提出了一种基于类比的新目标和一个层次结构架构，并提出了一个新的神经网络架构来解决延迟奖励问题，实验结果表明这些提议对于泛化到较长指令序列以及未见指令是至关重要的。

Jun, 2017

学习参数化的任务结构以实现对未知实体的泛化

通过一阶逻辑和子任务实体来建模子任务依赖关系，学习零样本实体属性，并且比以前的方法更有效地学习层次和组合任务的潜在结构，示范 PSGI 可以泛化模拟在适应期间未见到过的子任务结构。

Mar, 2022

通过自动学习组合子任务实现高效样本强化学习

自动结构化奖励函数以提高样本利用率，并在稀疏奖励环境中显著优于现有技术基线。

Jan, 2024

任务嵌入与共享策略的元强化学习

本研究提出了一种 meta-RL 方法，通过捕捉不同任务之间的共享信息和快速抽象任务特定信息的能力，使用任务编码器生成任务嵌入并在所有任务之间共享策略，实现在训练和新任务上的更好学习能力和更高回报率。

May, 2019

自监督任务推断的连续机器人学习

我们提出了一种自我监督任务推理方法，通过观察到的未标记演示的运动和效果部分的自组织以及联合动作 - 意图嵌入的自组织学习，学习行动和意图嵌入，并构建了一个行为匹配的自我监督学习目标来训练一个新型的任务推理网络，该网络将未标记演示映射到其最近的行为嵌入作为任务表示，所建立的多任务策略通过强化学习进行训练，以优化任务的性能。我们的方法在固定集合和持续多任务学习设置下使用一个人形机器人进行评估，并与不同的多任务学习基线进行比较。结果表明，我们的方法在持续学习设置下性能优于其他基线，尤其在具有挑战性的情况下，并且能够从不完整的演示中推断出任务。在单次任务泛化实验中，我们的方法还显示出对未见任务的推理能力。

Sep, 2023