逆凹效用增强学习即逆博弈论

May, 2024

Inverse Concave-Utility Reinforcement Learning is Inverse Game Theory

Mustafa Mert Çelikok, Frans A. Oliehoek, Jan-Willem van de Meent

TL;DR我们提出了新的逆反强化学习问题的理论框架，将 concave function 应用于 CURL，并创造性地将其等效于 mean-field games 的逆博弈理论问题，从而揭示了 CURL 问题与传统逆强化学习不同的特性和挑战。

Abstract

We consider inverse reinforcement learning problems with concave utilities. concave utility reinforcement learning (CURL) is a generalisat

inverse reinforcement learning concave utilities concave utility reinforcement learning inverse rl for curl problems feasible rewards for i-curl

发现论文，激发创造

凹形效用强化学习：均场博弈的视角

本研究介绍了基于凹效用函数的强化学习模型 CURL，它扩展了线性到凹效用，同时将模仿学习和探索等领域纳入范畴。该模型违反经典 Bellman 方程，需要新算法。本文通过证明 CURL 是 MFG 的子类，将两个社区联系了起来，并通过实验表明，最近为 MFG 解决问题引入的算法可以更有效地解决 CURL 问题。

Jun, 2021

MetaCURL: 非平稳凹效用强化学习

我们通过元算法和专家集成的方法在非平稳环境（变换的损失和概率转换）中探索在线学习在无环节马尔可夫决策过程中的应用，重点研究了处理凸性性能准则的经典强化学习的扩展问题 CURL。我们的方法能够在部分信息下，不需要先验的 MDP 更改知识，实现最优的动态遗憾，处理了全面对抗的损失而不仅仅是随机的。我们认为我们处理专家管理非平稳性的方法对强化学习社区具有一定的利益。

May, 2024

具有约束恢复的逆强化学习

本文提出了基于最大熵原理的逆强化学习算法，用于推断约束非凸最优化问题的奖励函数和约束条件，并采用指数梯度下降算法解决约束问题。通过在网格世界环境中的实验验证了该算法的效力。

May, 2023

CURL：强化学习中的对比无监督表示学习

本文提出了一种基于对比学习的无监督表征学习方法 CURL，其可以从原始像素中提取高层特征，并在此基础上进行偏置控制，在 DeepMind Control Suite 和 Atari Games 中均实现了比先前基于像素的方法更好的性能表现，在 10 万个环境交互和环境步骤基准测试中分别表现出了 1.9 倍和 1.2 倍的性能增益。在 DeepMind Control Suite 中，CURL 是第一个能够与使用基于状态特征的方法几乎匹配样本效率的基于图像的算法。我们的代码已开源，并可在此 https URL 下载。

Apr, 2020

倒置强化学习的理论理解

本文中，我们介绍了使用生成模型的有限时间问题中逆强化学习（IRL）的可行奖赏估计问题，提出了关于可行奖赏集合的最小最大下界，并分析了平均复杂度。

Apr, 2023

具有概率上下文变量的元反强化学习

研究表明通过使用深度潜在变量模型可以实现无监督学习来自不同但相关的任务演示数据的奖励函数，从而有效地解决逆强化学习中从少量演示推断奖励的问题，并在多个连续控制任务中展示了实验结果。

Sep, 2019

视频游戏的逆强化学习

通过改良强化学习反求解奖励函数模型的 CNN-AIRL 方法以及使用对电子游戏环境进行了调整的自动编码器将专家演示转化为奖励网络的输入，本文在简单的 Catcher 游戏上取得了高水平表现，显著超越了 CNN-AIRL 基线，但在 Enduro Atari 赛车游戏中表现不佳，这彰显了需要进一步研究的必要性。

Oct, 2018

同时估计奖励与动态的逆强化学习

本文提出了一种基于梯度的逆强化学习方法，同时估计系统动态，以后解决由生成策略引起的演示偏差，有效提高了样本利用率并准确估计奖励和转移模型，该方法在合成 MDP 和转移学习任务上都得到了改进。

Apr, 2016

伴随明确策略评估的逆强化学习

本文介绍了一种将机器学习和经济学中互相独立发展的求解逆强化学习问题的不同方法联系起来的方法，发现了它们属于一类共同形式目标、策略和目标梯度的优化问题，探究了不同方法的适用场景和算法效率。

Mar, 2021

自信感感知的逆约束强化学习

逆向约束强化学习 (Inverse Constraint Reinforcement Learning, ICRL) 领域研究了从离线专家演示中估计约束的算法，并提供了一种基于置信水平对专家演示进行约束估计的方法，使用户可以选择满足期望置信水平的约束进行使用，同时允许用户了解专家轨迹数量不足时的情况并采集更多专家轨迹以同时学习满足期望置信水平的约束和达到期望性能水平的策略。

Jun, 2024