RL$^2$: 快速增强学习通过慢增强学习

ICLRNov, 2016

RL$^2$: 快速增强学习通过慢增强学习

RL$^2$: Fast Reinforcement Learning via Slow Reinforcement Learning

Yan Duan, John Schulman, Xi Chen, Peter L. Bartlett, Ilya Sutskever...

TL;DR通过将强化学习算法 RL^2 表示为递归神经网络并从数据中学习，我们提出了一种方法来尝试理解替代动物的快速学习过程。我们在具有优化性能保证的情况下评估了 RL^2 的性能，并证明它适用于高维问题。

Abstract

deep reinforcement learning (deep RL) has been successful in learning sophisticated behaviors automatically; however, the learning process requires a huge number of trials. In contrast, animals can learn new tasks in just a few trials, benefiting from their prior knowledge about the wo

deep reinforcement learning recurrent neural network markov decision process rl$^2$high-dimensional problems

发现论文，激发创造

强化学习学习

本文提出了一种名为深度元强化学习的方法，该方法使用递归网络，在一个强化学习算法上进行训练，但其递归动态实现第二个、完全分离的强化学习过程，通过一系列七个验验证明了这种方法的潜在优势并提出了其可能引发的神经科学方面的重要影响。

Nov, 2016

循环强化学习：一种混合方法

本文研究了一种深度学习方法，将强化学习和监督学习结合，通过长短时记忆网络对隐藏状态的表示进行学习，在部分可观测任务中表现出了很好的性能。

Sep, 2015

RL$^3$: 通过 RL 内外的 RL$^2$ 提升元强化学习

本文提出了一种 RL$^3$ 算法，该算法将 Task-specific action-values 作为 Traditional RL 学到的输入，并通过将 Traditional RL 和 Meta-RL 组合来在 Long-horizon 和 Out-of-distribution 任务中获得更高的累积回报。

Jun, 2023

高效稳定的多步稀疏奖励强化学习的抽象演示和自适应探索

本文提出了一种 DRL 探索技术 A^2，通过将复杂任务分解成子任务、提供正确的子任务顺序以及自适应探索环境的方式，改善了学习效率，实验表明在多个任务中，A^2 有助于 DQN、DDPG 和 SAC 等普通 DRL 算法在这些环境中更高效、更稳定地学习。

Jul, 2022

量子深度循环强化学习

本文介绍了使用量子循环神经网络和深度 Q-learning 算法来解决部分可观察环境中的量子强化学习问题，并且在数值模拟中证明了该方法在标准基准测试如 Cart-Pole 中的结果比经典 DRQN 更加稳定和具有更高的平均分数。

Oct, 2022

透過週期性神經網路的增強學習，實現行動層次和組合的自我組織

该研究提出一种新型的多时间尺度随机循环神经网络用于强化学习，可以自主学习抽象的子目标并自我开发行为层次结构，在挑战性的连续控制任务中确保了比起从头开始训练更快的再学习。同时，研究发现，当神经活动遵循随机动态时，可以实现更好的表现。

Jan, 2019

稳健且平滑的深度强化学习策略

提出了新的 Deep RL 框架 $ extbf {SR}^2 extbf {L}$，通过引入 smoothness-induced regularization，使学习到的 policy 对连续状态空间的过渡 smooth，提高抗扰动能力和样本效率。在 TRPO 和 DDPG 上实验表明，该方法取得了效果的提升。

Mar, 2020

半监督强化学习技能泛化

本文研究了如何在有限的标注数据下，通过半监督强化学习及反强化学习等方法，使机器人等强化学习智能体在探索未知领域时能够获得更好的泛化效果，并评估了该方法在基于图像的控制任务上的表现。

Dec, 2016

基于递归卷积神经网络的强化学习

使用递归卷积神经网络的值迭代，以及部分可观测环境下的状态信念传递和最佳行动选择来更好地利用强化学习问题的固有结构，通过 RCNNs 回传梯度允许系统显式地学习与底层 MDP 相关联的变换模型和奖励函数，这是经典基于模型的 RL 的一种优秀替代方法。我们通过机器人规划问题的仿真来评估所提出的算法，并展示了我们框架降低重新规划成本、学习准确的 MDP 模型以及使用学习的模型重新规划以实现接近最优策略的能力。

Jan, 2017

RRL：ResNet 用于强化学习的表示

我们提出了 RRL（使用 Resnet 作为 Reinforcement Learning 的表示）作为一种简单而有效的方法，可以直接从固有输入中学习复杂的行为，其在高维领域中的学习性能和样本效率甚至可以与直接从状态中学习相匹配，尤其在模拟的机器人灵巧操作基准中表现出接触丰富的行为。

Jul, 2021