循环超网络在元强化学习中的强大能力
本文提出了一种名为深度元强化学习的方法,该方法使用递归网络,在一个强化学习算法上进行训练,但其递归动态实现第二个、完全分离的强化学习过程,通过一系列七个验验证明了这种方法的潜在优势并提出了其可能引发的神经科学方面的重要影响。
Nov, 2016
本研究基于机器人实验,研究了在多个相关任务中训练深度强化学习模型的样本效率问题,采用一种称为超网络的方法来解决模型泛化问题,并且提出了一种新的超网络初始化策略,该策略在多个模拟机器人基准测试上的表现超过了现有方法。
Oct, 2022
该研究提出一种新型的多时间尺度随机循环神经网络用于强化学习,可以自主学习抽象的子目标并自我开发行为层次结构,在挑战性的连续控制任务中确保了比起从头开始训练更快的再学习。同时,研究发现,当神经活动遵循随机动态时,可以实现更好的表现。
Jan, 2019
本文使用超网络通过一种新颖的基于时序差分的训练目标和数据来生成在一系列未知任务条件下的行为。通过近乎最优的强化学习解决方案的数据,本研究与元 RL、上下文 RL 和迁移学习有关,着重于测试时的零样本表现,这是由任务参数(也称为上下文)的知识实现的。我们的技术方法是基于将每个 RL 算法视为从 MDP 特定内容到近乎最优值函数和策略的映射,并通过一个超网络来近似该映射,该超网络可以生成近乎最优值函数和策略,给定 MDP 的参数。我们证明,在某些条件下,这种映射可以被认为是一个监督学习问题。我们在从 DeepMind Control Suite 中的一系列连续控制任务中对零样本传递到新的奖励和过渡动态的方法进行了实证评估。我们的方法比来自多任务和元 RL 方法的基线表现有显著提高。
Nov, 2022
通过 POMDP 框架解决元 RL 问题的本质,发现递归元 RL 智能体可以被视为在由多个相关任务组成的部分可观测环境中最优地行动的代理,帮助我们理解它们的失败情况和文献中一些有趣的基于模型的结果。
Apr, 2021
本文提出了一种 RL$^3$ 算法,该算法将 Task-specific action-values 作为 Traditional RL 学到的输入,并通过将 Traditional RL 和 Meta-RL 组合来在 Long-horizon 和 Out-of-distribution 任务中获得更高的累积回报。
Jun, 2023
本文通过比较 21 个环境中基于循环神经网络的无模型强化学习方法的效果,发现精心的架构和超参数决策通常可以实现比专门针对特定 POMDPs 设计的算法更好的表现,提出了一种简单高效的序贯决策模型作为 POMDPs 基线模型。
Oct, 2021
本文探讨了相关的优化问题,尝试使用梯度削减,跨越更长的时间范围,强化动量技术,使用更强大的输出概率模型,以及鼓励更稀疏的梯度来帮助对称性打破和学分分配等几个方面,以提高长序列的训练的可行性和效率。实验结果在文本和音乐数据的训练和测试误差中表现出了显著的进步。
Dec, 2012
本文讨论了深度强化学习中训练大型神经网络的困难之处,提出了使用 DenseNet 连接构建更大的神经网络、将表示学习与强化学习训练分离以及采用分布式训练方法缓解过拟合问题等三种技术来提高性能的方法,在几个具有挑战性的运动任务上的结果表明本文提出的方法的有效性超过了其他基线算法。
Feb, 2021