AAAINov, 2022

强化学习中的零样本转移的超网络

TL;DR本文使用超网络通过一种新颖的基于时序差分的训练目标和数据来生成在一系列未知任务条件下的行为。通过近乎最优的强化学习解决方案的数据,本研究与元 RL、上下文 RL 和迁移学习有关,着重于测试时的零样本表现,这是由任务参数(也称为上下文)的知识实现的。我们的技术方法是基于将每个 RL 算法视为从 MDP 特定内容到近乎最优值函数和策略的映射,并通过一个超网络来近似该映射,该超网络可以生成近乎最优值函数和策略,给定 MDP 的参数。我们证明,在某些条件下,这种映射可以被认为是一个监督学习问题。我们在从 DeepMind Control Suite 中的一系列连续控制任务中对零样本传递到新的奖励和过渡动态的方法进行了实证评估。我们的方法比来自多任务和元 RL 方法的基线表现有显著提高。