基于事件的变分逆控制方法：一种用于数据驱动奖励定义的通用框架

NIPSMay, 2018

基于事件的变分逆控制方法：一种用于数据驱动奖励定义的通用框架

Variational Inverse Control with Events: A General Framework for Data-Driven Reward Definition

Justin Fu, Avi Singh, Dibya Ghosh, Larry Yang, Sergey Levine

TL;DR本文提出了一种新方法 —— 基于事件的变分反控制方法 (VICE)，用于解决控制和强化学习中经常遇到的奖励函数设计困难问题，特别是在只有一些目标状态示例的情况下。我们的方法基于控制和强化学习的另一种视角，即代理目标是最大化未来某个时间点发生一个或多个事件的概率，而不是最大化累积奖励。我们通过高维观测（如图像），演示了我们的方法在连续控制任务上的有效性，其中奖励很难甚至无法指定。

Abstract

The design of a reward function often poses a major practical challenge to real-world applications of reinforcement learning. Approaches such as inverse →

reward function reinforcement learning inverse reinforcement learning variational inverse control continuous control

发现论文，激发创造

具有概率上下文变量的元反强化学习

研究表明通过使用深度潜在变量模型可以实现无监督学习来自不同但相关的任务演示数据的奖励函数，从而有效地解决逆强化学习中从少量演示推断奖励的问题，并在多个连续控制任务中展示了实验结果。

Sep, 2019

通过变分推断实现基于结果的强化学习

通过提出一种新的变分推断形式，从环境交互中直接学习良好的奖励函数，并使用新的概率贝尔曼反演运算符，发展了一种离线策略算法来解决目标导向任务，该方法消除了手工制作奖励函数的需要，并对各种机械操纵和运动任务产生了有效的目标导向行为。

Apr, 2021

从语言到目标：基于视觉的逆强化学习指令跟随

本研究探讨了使用反强化学习将语言命令作为奖励函数的问题，并提出了一种将语言命令作为深度神经网络表示的奖励函数的学习算法，即语言条件奖励学习（LC-RL）。实验结果表明，与直接学习语言条件策略相比，使用 LC-RL 学习的奖励可以更好地在新任务和环境中进行迁移。

Feb, 2019

基于变分反强化学习的对抗性模仿

通过生成敌对网络框架，提出一种以权力为基础的正则化最大熵逆向强化学习来学习接近最优的奖励和策略，同时学习变分信息最大化下的权力，并在各种高维复杂控制任务和具有挑战性的转移学习问题上进行了评估，证明了该方法不仅匹配专家行为而且比最先进的逆向强化学习算法表现显著优异。

Sep, 2018

具有局部最优示例的连续逆优化控制

本文介绍了一种适用于大规模连续任务的概率反向最优控制算法，通过使用奖励函数的局部估计值，该方法可以学习来自非全局最优演示的例子，并消除全局最优的假设。

Jun, 2012

逆强化学习的新型变分下界

逆向强化学习通过学习专家轨迹的奖励函数，理解模仿或协作任务，从而消除手动奖励设计的需要。本文提出了一种新的变分下界的逆向强化学习方法 (VLB-IRL)，通过最大化下界相当于最小化近似分布和真实分布之间的逆 Kullback-Leibler 散度，同时学习奖励函数和根据所学奖励函数最大化下界来寻找到达专家级性能的策略，该方法在几个已知领域上优于现有的逆向强化学习算法。

Nov, 2023

指导成本学习：基于策略优化的深层逆最优控制

本文旨在探讨如何使用逆优化控制（IOC）从演示学习行为，具体应用于对高维机器人系统的扭矩控制。作者提出了一种算法，能够学习任意的非线性成本函数 (如神经网络)；同时提出了一种针对 MaxEnt IOC 的高效的基于采样的近似方法。通过一系列模拟任务和真实的机器人操作问题的评估，该方法能够实现显著的任务复杂度和样本效率的提升。

Mar, 2016

基于梯度学习器的逆强化学习

本文提出了用于从机器人的多次策略中恢复策略目标的新算法。该算法基于观察所观察到的代理程序沿梯度方向更新其策略参数的假设。

Jul, 2020

对比例子为基础的控制

基于示例的学习方法提出了一种离线控制方法，该方法学习了一个隐式模型来表示多步转变的 Q 值，并在状态和图像离线控制任务中优于基准方法并展现了对数据集规模的提升和鲁棒性。

Jul, 2023

示例中的价值惩罚辅助控制用于无奖励或演示的学习

通过添加计划的辅助控制和辅助任务的示例，本研究在基于示例的控制任务中显著提高了探索能力，并解决了价值估计超出理论限制的问题，从而大大提高了学习效率。

Jul, 2024