基于后继特征与逆时序差分学习的示范增强学习 (PsiPhi-Learning)

ICMLFeb, 2021

基于后继特征与逆时序差分学习的示范增强学习 (PsiPhi-Learning)

PsiPhi-Learning: Reinforcement Learning with Demonstrations using Successor Features and Inverse Temporal Difference Learning

PDF

Angelos Filos, Clare Lyle, Yarin Gal, Sergey Levine, Natasha Jaques...

TL;DR该研究探讨了如何利用没有奖励标签的演示样本进行强化学习，提出了一种基于继承特征的多任务反向强化学习算法，证明了该算法在零样本迁移方面的有效性和性能上界，并且展示了在几种应用领域的具体应用。

Abstract

We study reinforcement learning (RL) with no-reward demonstrations, a setting in which an RL agent has access to additional data from the interaction of other agents with the same environment. However, it has no

reinforcement learning no-reward demonstrations successor features multi-task inverse reinforcement learning transfer learning

发现论文，激发创造

同时估计奖励与动态的逆强化学习

本文提出了一种基于梯度的逆强化学习方法，同时估计系统动态，以后解决由生成策略引起的演示偏差，有效提高了样本利用率并准确估计奖励和转移模型，该方法在合成 MDP 和转移学习任务上都得到了改进。

Apr, 2016

具有概率上下文变量的元反强化学习

研究表明通过使用深度潜在变量模型可以实现无监督学习来自不同但相关的任务演示数据的奖励函数，从而有效地解决逆强化学习中从少量演示推断奖励的问题，并在多个连续控制任务中展示了实验结果。

Sep, 2019

逆向强化学习的自动特征选择

逆向强化学习是一种从专家示范中学习奖励函数的模仿学习方法，通过使用线性组合特征表示奖励，借助多项式基函数形成特征候选集来解决连续状态空间中特征选择的问题，并利用轨迹概率与特征期望之间的关联对特征进行选择，实验表明该方法能够恢复捕获专家策略的奖励函数，适用于越来越复杂的非线性控制任务。

Mar, 2024

第三人称模仿学习

本文提出了一种利用领域混淆技术进行无监督第三人称模仿学习的方法，证明了该方法在点质点领域、伸手领域和倒立摆等领域的第三人称模仿学习中取得成功。

Mar, 2017

基于深高斯过程的逆强化学习

该论文提出了一种基于深度高斯过程模型的新逆向强化学习方法，可在少量演示情况下学习复杂的奖励结构，并通过最大熵学习框架与状态特征空间相链接。通过自行开发的非标准变分近似框架，可进行特征空间的近似贝叶斯处理，并防止过度拟合。在该模型中同时进行表示和逆向强化学习性能优于现有技术。已在标准基准测试中进行实验验证（“物体世界”、“高速公路驾驶”）以及新的基准测试（“二进制世界”）。

Dec, 2015

通过正则化逆强化学习实现奖励可转移性

逆强化学习旨在从专家示范中推断出奖励，但奖励与最优策略不唯一，本文提出主角度作为衡量转移规律相似性和差异性的更精细度量，建立了两个关键结果：1）当学习来自至少两个转移规律明显不同的专家时，对任何转移规律的可转移性提供了足够条件；2）当从单个专家学习时，对转移规律的局部变化的可转移性提供了足够条件，并提供了概率近似正确（PAC）算法和端到端分析，用于从多个专家的示范中学习可转移的奖励。

Jun, 2024

从摘要数据中进行反向强化学习

该论文介绍了一种新的逆向强化学习方法，该方法不需要对数据进行特定的简化假设，可以在不确定简化函数的情况下进行推理和评估参数不确定性。

Mar, 2017

通过观察从反强化学习中超越次优演示

本文提出了一种基于 Trajectory-ranked Reward EXtrapolation (T-REX) 算法的强化学习奖励学习方法，该方法可以从一系列排名不佳的示范中开创性地推断出高质量的奖励函数，并结合深度强化学习方法，在多个 Atari 游戏任务上实现了超过最佳演示 2 倍以上的优异表现。

Apr, 2019

通过元反强化学习学习意图的先验知识

本文通过学习先验 (prior) 函数从其他任务的演示中推断奖励函数 (reward functions)，以优化从有限的演示中推断表达丰富的奖励函数的能力，并演示了该方法可以有效地从图像中恢复新任务的奖励。

May, 2018

用于单示范模仿学习的专家接近度作为替代奖励

单个示范模仿学习浅层奖励问题通过过渡判别基于 IL 方法得到缓解，在五个广泛采用的 MuJoCo 基准测试以及 “灵巧门” 环境中，该方法胜过现有的 IL 方法且达到专家级性能。

Feb, 2024