多任务深度强化学习中的零样本任务泛化

ICMLJun, 2017

多任务深度强化学习中的零样本任务泛化

Zero-Shot Task Generalization with Multi-Task Deep Reinforcement Learning

Junhyuk Oh, Satinder Singh, Honglak Lee, Pushmeet Kohli

TL;DR在强化学习中，我们介绍了一种新的强化学习问题，其中代理需要在学习解决子任务的有用技能后学习执行指令序列。我们考虑到先前未见的指令和更长的指令序列的泛化，为此，我们提出了一种基于类比的新目标和一个层次结构架构，并提出了一个新的神经网络架构来解决延迟奖励问题，实验结果表明这些提议对于泛化到较长指令序列以及未见指令是至关重要的。

Abstract

As a step towards developing zero-shot task generalization capabilities in reinforcement learning (RL), we introduce a new RL problem where the agent should learn to execute sequences of instructions after learni

reinforcement learning generalization hierarchical architecture delayed reward subtasks

发现论文，激发创造

分层强化学习用于具有子任务依赖性的零样本普适性

提出了一种新的强化学习问题，该问题需要代理在一个由子任务图描述的先前未见的环境中进行泛化，我们提出了一种神经子任务图求解器，通过使用递归神经网络嵌入来编码子任务图，并用基于梯度的策略，图奖励传播来预训练它，进一步通过演员 - 评论家方法微调它，实验结果表明，我们的代理可以进行复杂的推理，找到执行子任务图的近似最优方式，并且在未见的子任务图上具备很好的泛化性能。

Jul, 2018

通过任务时间逻辑和深度强化学习实现系统化概括

介绍了一种将深度强化学习与时间逻辑相结合的神经符号代理，以实现形式化规定指令的系统性零射 (就是指未曾见过的情况)。研究证明，卷积层的架构在泛化新指令时发挥了关键作用，并证明通过学习少量训练样例，可以从抽象操作符中实现系统化的学习。

Jun, 2020

强化学习中的新动作泛化

本研究提出了一个两阶段的框架来解决强化学习模型对新任务中无法适应新动作的问题，首先从任务中获取动作信息来推理动作表示，然后通过泛化目标训练灵活适应不同动作集的策略，在选择新动作解决物理推理谜题和新三维形状堆叠等顺序任务的基准测试中得到了推广。

Nov, 2020

强化学习任务状态对应关系的学习，用于知识迁移

该研究提出了一种基于生成对抗网络模型的一对一转移学习方法，旨在解决深度强化学习中新任务的知识重用和泛化问题。

Sep, 2022

半监督强化学习技能泛化

本文研究了如何在有限的标注数据下，通过半监督强化学习及反强化学习等方法，使机器人等强化学习智能体在探索未知领域时能够获得更好的泛化效果，并评估了该方法在基于图像的控制任务上的表现。

Dec, 2016

向人类请教：利用人类指令提升强化学习的泛化能力

本文提出通过使用自然语言指令和行动轨迹演示来自动分解分层任务，以解决在稀疏奖励的强化学习设置中的复杂多任务问题，并证明人类演示有助于解决最复杂的任务，同时允许该模型再未见数据的情况下推广学习，从而使训练好的代理人具有可解释的行为。

Nov, 2020

一次性模仿学习

本文旨在提出一个元学习框架，称之为一次学习，实现机器人从极少量的演示中学习，并即刻推广到相似的其他任务中。

Mar, 2017

自主推断子任务依赖关系的元强化学习

本文提出了一种新颖的少样本强化学习问题，其通过任务的子任务图描述一组子任务及其依赖关系，我们开发了一种元学习器，即消息传递子任务图推理器（MSGI），该学习器通过与环境交互推断任务的潜在参数，并采用上限置信界中得到启发的内在奖励以促进有效探索，实验结果表明该方法能够准确推断潜在任务参数，并比现有的元强化学习和分层强化学习方法更有效地适应。

Jan, 2020

BC-Z：利用机器人模仿学习实现无需先学习任务的泛化

本文旨在通过模仿学习的角度研究如何通过扩大数据采集并建立交互灵活的学习系统来促进基于视觉的机器人操作系统向新任务的泛化，当扩展真实机器人的数据采集到 100 个不同的任务时，我们发现此系统可以实现 24 个未见过的操作任务，平均成功率为 44%。

Feb, 2022

强化学习中的零样本转移的超网络

本文使用超网络通过一种新颖的基于时序差分的训练目标和数据来生成在一系列未知任务条件下的行为。通过近乎最优的强化学习解决方案的数据，本研究与元 RL、上下文 RL 和迁移学习有关，着重于测试时的零样本表现，这是由任务参数（也称为上下文）的知识实现的。我们的技术方法是基于将每个 RL 算法视为从 MDP 特定内容到近乎最优值函数和策略的映射，并通过一个超网络来近似该映射，该超网络可以生成近乎最优值函数和策略，给定 MDP 的参数。我们证明，在某些条件下，这种映射可以被认为是一个监督学习问题。我们在从 DeepMind Control Suite 中的一系列连续控制任务中对零样本传递到新的奖励和过渡动态的方法进行了实证评估。我们的方法比来自多任务和元 RL 方法的基线表现有显著提高。

Nov, 2022