只需要有监督学习：从模仿学习到反转强化学习元学习

Feb, 2022

只需要有监督学习：从模仿学习到反转强化学习元学习

All You Need Is Supervised Learning: From Imitation Learning to Meta-RL With Upside Down RL

Kai Arulkumaran, Dylan R. Ashley, Jürgen Schmidhuber, Rupesh K. Srivastava

TL;DR本文介绍 Upside Down Reinforcement Learning (UDRL) 算法，它使用监督学习实现了强化学习的目标，并可以适用于多种强化学习环境，具有非常广泛的适用性。

Abstract

upside down reinforcement learning (UDRL) flips the conventional use of the return in the objective function in RL upside down, by taking returns as input and predicting actions. UDRL is based purely on supervised learn

upside down reinforcement learning supervised learning offline rl meta-rl agent architecture

发现论文，激发创造

使用倒置强化学习训练智能体

本文提出了一种名为 UDRL 的方法，该方法利用监督学习技术学习行为，不需要奖励预测或寻找最优策略，通过训练智能体遵循指令而不是预测奖励的方法，可以在多个情境环境下产生一系列有用的行为，并且在某些任务上其表现甚至超越了传统基准算法，并提出了期望奖励最大化以外的替代方法在训练有用的自主代理方面具有重要作用。

Dec, 2019

逆向强化学习：不预测奖励，只需将其映射到行为

本文中提出了 Upside Down RL，将强化学习转化为一种监督学习，通过对过去的经历进行监督，利用奖励作为任务定义的输入，利用时间长度和历史数据等可计算函数来辅助实现，同时还将此方法应用于模拟行为教学中，并给出了实验结果。

Dec, 2019

倒置强化学习在具有周期性重置的随机环境下可能会发散

通过解释一个特定的 UDRL 算法（eUDRL）是一个递归策略更新，对于广泛类别的随机环境非正常收敛的证明，从而漏洞了具有收敛保证性的强化学习算法期望。

May, 2022

使用倒置强化学习学习相对回报策略

研究了倒立强化学习在使用命令指定标量和观察回报之间期望关系方面的潜力以及在 Table 赌博机和具有非线性函数逼近的 CartPole 上实现此类命令的在线学习能力，并展示了此类方法的强大性以及它们在更复杂的命令结构下的实际应用的开放性。

Feb, 2022

任意经验的模仿：强化学习和模仿学习方法的双重统一

该研究论文旨在通过对强化学习，凸优化和无偏学习方法进行研究，提出了一种新方法，即对偶 RL 方法，可以用于从离线偏置数据中进行无偏学习。

Feb, 2023

开放式世界中的学习课程

该论文介绍了一种称为无监督环境设计（UED）的方法，通过自动生成无限的训练环境序列或课程以匹配或超过真实世界的复杂性，从而实现深度强化学习代理在鲜有环境示例中表现出显著改进的鲁棒性和泛化能力，这些自生成的环境课程为不断生成和掌握自主设计的额外挑战的开放式学习系统提供了有希望的路径。

Dec, 2023

回放引导的对抗环境设计

本文介绍了一种基于无监督环境设计的强化学习范例，叫做双重课程设计，其中使用了具有优先级的等级重放采样和对抗性策略改进方式，并在零样本迁移任务中得到了比以往更好的效果。

Oct, 2021

发现强化学习算法

该论文提出一种新的元学习方法，可以通过与一组环境交互，发现一个包含价值函数和时间差分学习等元素的更新规则，从而得到一个名为 LPG 的 RL 算法，该方法可以发现自己对于价值函数的替代方案，并有效地推广到复杂的 Atari 游戏中。

Jul, 2020

正例 - 未标注奖励学习

本文针对学习奖励模型所面临的挑战，探讨了正例 - 无标记学习算法（positive-unlabeled learning）在奖励学习问题中的应用，并验证该方法可以同时解决奖励低估和高估问题，从而显著提高 both GAIL and supervised 奖励学习的效果。

Nov, 2019

通过对抗环境设计发现通用的强化学习算法

通过分析元训练分布的特征对学习策略的泛化性能的影响，并结合无监督环境设计的思想，提出一种通过环境设计获得的通用强化学习优化器的新方法（GROOVE），该方法在一系列实验中展现了优于现有算法的泛化能力，并将算法遗憾（AR）作为环境设计中的关键组成部分加以评估。我们认为这一方法是朝着实现真正通用能解决各种现实环境的强化学习算法的一步。

Oct, 2023