使用倒置强化学习学习相对回报策略

Feb, 2022

使用倒置强化学习学习相对回报策略

Learning Relative Return Policies With Upside-Down Reinforcement Learning

Dylan R. Ashley, Kai Arulkumaran, Jürgen Schmidhuber, Rupesh Kumar Srivastava

TL;DR研究了倒立强化学习在使用命令指定标量和观察回报之间期望关系方面的潜力以及在 Table 赌博机和具有非线性函数逼近的 CartPole 上实现此类命令的在线学习能力，并展示了此类方法的强大性以及它们在更复杂的命令结构下的实际应用的开放性。

Abstract

Lately, there has been a resurgence of interest in using supervised learning to solve reinforcement learning problems. Recent work in this area has largely focused on learning command-conditioned policies. We inv

supervised learning reinforcement learning upside-down reinforcement learning tabular bandit setting non-linear function approximation

发现论文，激发创造

只需要有监督学习：从模仿学习到反转强化学习元学习

本文介绍 Upside Down Reinforcement Learning (UDRL) 算法，它使用监督学习实现了强化学习的目标，并可以适用于多种强化学习环境，具有非常广泛的适用性。

Feb, 2022

使用倒置强化学习训练智能体

本文提出了一种名为 UDRL 的方法，该方法利用监督学习技术学习行为，不需要奖励预测或寻找最优策略，通过训练智能体遵循指令而不是预测奖励的方法，可以在多个情境环境下产生一系列有用的行为，并且在某些任务上其表现甚至超越了传统基准算法，并提出了期望奖励最大化以外的替代方法在训练有用的自主代理方面具有重要作用。

Dec, 2019

逆向强化学习：不预测奖励，只需将其映射到行为

本文中提出了 Upside Down RL，将强化学习转化为一种监督学习，通过对过去的经历进行监督，利用奖励作为任务定义的输入，利用时间长度和历史数据等可计算函数来辅助实现，同时还将此方法应用于模拟行为教学中，并给出了实验结果。

Dec, 2019

奖励条件下的策略

本篇论文旨在探讨利用非专家轨迹收集数据进行监督学习以实现行为策略的泛化，探讨了基于此原理进行的策略搜索的方法，并在标准基准测试中与多种强化学习方法进行了比较。

Dec, 2019

倒置强化学习在具有周期性重置的随机环境下可能会发散

通过解释一个特定的 UDRL 算法（eUDRL）是一个递归策略更新，对于广泛类别的随机环境非正常收敛的证明，从而漏洞了具有收敛保证性的强化学习算法期望。

May, 2022

从语言到目标：基于视觉的逆强化学习指令跟随

本研究探讨了使用反强化学习将语言命令作为奖励函数的问题，并提出了一种将语言命令作为深度神经网络表示的奖励函数的学习算法，即语言条件奖励学习（LC-RL）。实验结果表明，与直接学习语言条件策略相比，使用 LC-RL 学习的奖励可以更好地在新任务和环境中进行迁移。

Feb, 2019

基于梯度学习器的逆强化学习

本文提出了用于从机器人的多次策略中恢复策略目标的新算法。该算法基于观察所观察到的代理程序沿梯度方向更新其策略参数的假设。

Jul, 2020

无监督离策略强化学习实现真实世界机器人技能

本文提出的无监督技能发现算法可用于进行高效无监督增强学习，通过模型预测控制将学习到的技能组合用于目标导航。

Apr, 2020

模仿过去的成功可能不是最优的选择

本文研究提出了基于结果条件的模仿学习方法与强化学习中的奖励最大化问题之间的关系，并证明了现有方法并不一定能够改善策略，但是通过一些简单的修改得到的方法可以保证策略的改进。

Jun, 2022

逆强化学习与梯度方法的学徒学习

本文提出了一种新的梯度算法，用于从专家观察行为中学习策略，假设专家根据某种未知奖励函数行动最优，算法的目标是找到一个奖励函数使得最优策略与专家观察行为匹配良好，并且在两个人工数据集中表现更加可靠和高效。

Jun, 2012