强化学习中的零样本转移的超网络

AAAINov, 2022

强化学习中的零样本转移的超网络

Hypernetworks for Zero-shot Transfer in Reinforcement Learning

Sahand Rezaei-Shoshtari, Charlotte Morissette, Francois Robert Hogan, Gregory Dudek, David Meger

TL;DR本文使用超网络通过一种新颖的基于时序差分的训练目标和数据来生成在一系列未知任务条件下的行为。通过近乎最优的强化学习解决方案的数据，本研究与元 RL、上下文 RL 和迁移学习有关，着重于测试时的零样本表现，这是由任务参数（也称为上下文）的知识实现的。我们的技术方法是基于将每个 RL 算法视为从 MDP 特定内容到近乎最优值函数和策略的映射，并通过一个超网络来近似该映射，该超网络可以生成近乎最优值函数和策略，给定 MDP 的参数。我们证明，在某些条件下，这种映射可以被认为是一个监督学习问题。我们在从 DeepMind Control Suite 中的一系列连续控制任务中对零样本传递到新的奖励和过渡动态的方法进行了实证评估。我们的方法比来自多任务和元 RL 方法的基线表现有显著提高。

Abstract

In this paper, hypernetworks are trained to generate behaviors across a range of unseen task conditions, via a novel TD-based training objective and data from a set of near-optimal RL solutions for training tasks. This work relates to →

hypernetworks meta rl contextual rl transfer learning zero-shot performance

发现论文，激发创造

元强化学习中的超网络

本研究基于机器人实验，研究了在多个相关任务中训练深度强化学习模型的样本效率问题，采用一种称为超网络的方法来解决模型泛化问题，并且提出了一种新的超网络初始化策略，该策略在多个模拟机器人基准测试上的表现超过了现有方法。

Oct, 2022

多任务深度强化学习中的零样本任务泛化

在强化学习中，我们介绍了一种新的强化学习问题，其中代理需要在学习解决子任务的有用技能后学习执行指令序列。我们考虑到先前未见的指令和更长的指令序列的泛化，为此，我们提出了一种基于类比的新目标和一个层次结构架构，并提出了一个新的神经网络架构来解决延迟奖励问题，实验结果表明这些提议对于泛化到较长指令序列以及未见指令是至关重要的。

Jun, 2017

循环超网络在元强化学习中的强大能力

深度强化学习中的元强化学习通过学习可以进行少样本训练的方式来解决样本低效问题。本文通过实证调查发现，当与超网络结合时，远比现有专门方法更简单的循环网络可以实现最强的性能。

Sep, 2023

零样本迁移在模仿学习中的应用

我们提出了一种学习模仿专家行为并能在以前未见过的领域进行迁移学习的算法。通过使用 AnnealedVAE 来学习一个解缠缚状态表示，并通过学习一个单一的 Q 函数来模仿专家，我们结合了深度强化学习中的最新进展，从而克服了奖励函数设计的困难、在不同领域部署已学习策略的困难，以及直接在现实世界中学习由于安全问题而昂贵或不可行的问题。在 3 个环境中展示了我们方法的有效性，这些环境的难度和迁移知识类型各不相同。

Oct, 2023

强化学习学习

本文提出了一种名为深度元强化学习的方法，该方法使用递归网络，在一个强化学习算法上进行训练，但其递归动态实现第二个、完全分离的强化学习过程，通过一系列七个验验证明了这种方法的潜在优势并提出了其可能引发的神经科学方面的重要影响。

Nov, 2016

多任务和多机器人迁移学习的模块化神经网络策略学习

本研究主要关注于如何使用深度增强学习的方法，通过神经网络策略来训练机器人获取新的技能。同时，通过迁移学习，可以实现技能和机器人之间的信息共享，从而使用 mix-and-match 模块来解决新的机器人环境和任务组合的问题。

Sep, 2016

Few-shot 优化的广义强化元学习

提出了一种基于强化学习和元学习的框架来解决 few-shot learning 问题，通过稳定的损失函数来学习最佳的优化算法，从而实现了对参数的更新。实验结果表明该方法在准确率和 NDCG 指标上均超过了现有的替代方法，并且可扩展到网络结构搜索。

May, 2020

用超网络重新组合强化学习构建块

本文提出使用超网络结构来改善强化学习和 Meta-RL 算法中梯度估计和学习步骤方差的问题，以提高学习效率和最终性能。实验表明，该方法可在不同的任务和算法中得到一致的改进。

Jun, 2021

RL$^3$: 通过 RL 内外的 RL$^2$ 提升元强化学习

本文提出了一种 RL$^3$ 算法，该算法将 Task-specific action-values 作为 Traditional RL 学到的输入，并通过将 Traditional RL 和 Meta-RL 组合来在 Long-horizon 和 Out-of-distribution 任务中获得更高的累积回报。

Jun, 2023

强化学习任务状态对应关系的学习，用于知识迁移

该研究提出了一种基于生成对抗网络模型的一对一转移学习方法，旨在解决深度强化学习中新任务的知识重用和泛化问题。

Sep, 2022