伴随明确策略评估的逆强化学习

AAAIMar, 2021

Inverse Reinforcement Learning with Explicit Policy Estimates

Navyata Sanghvi, Shinnosuke Usami, Mohit Sharma, Joachim Groeger, Kris Kitani

TL;DR本文介绍了一种将机器学习和经济学中互相独立发展的求解逆强化学习问题的不同方法联系起来的方法，发现了它们属于一类共同形式目标、策略和目标梯度的优化问题，探究了不同方法的适用场景和算法效率。

Abstract

Various methods for solving the inverse reinforcement learning (IRL) problem have been developed independently in machine learning and economics. In particular, the method of maximum causal entropy IRL is based o

inverse reinforcement learning maximum causal entropy optimization problems soft value function algorithm efficiency

发现论文，激发创造

最大因果熵逆强化学习入门

本文介绍了反向强化学习领域最受欢迎的 Maximum Causal Entropy (MCE) IRL 算法及其算法实现的压缩推导和关键结果，旨在为新手提供入门资源，也为熟悉这些主题的人提供简洁的参考。

Mar, 2022

倒置强化学习的理论理解

本文中，我们介绍了使用生成模型的有限时间问题中逆强化学习（IRL）的可行奖赏估计问题，提出了关于可行奖赏集合的最小最大下界，并分析了平均复杂度。

Apr, 2023

无模型熵正则化逆强化学习算法的收敛性

给定一个专家示范数据集，逆向强化学习（IRL）旨在恢复一个专家所优化的奖励。本研究提出了一种无模型算法来解决熵正则化的 IRL 问题。我们采用随机梯度下降算法更新奖励，并采用随机软策略迭代算法更新策略，假设可以访问一个生成模型，我们证明了我们的算法使用 O (1/ε^2) 个马尔可夫决策过程（MDP）样本能够恢复一个 ε- 最优奖励。此外，我们证明在 O (1/ε^4) 个样本情况下，所恢复的奖励对应的最优策略与专家策略在总变差距离上接近 ε。

Mar, 2024

同时估计奖励与动态的逆强化学习

本文提出了一种基于梯度的逆强化学习方法，同时估计系统动态，以后解决由生成策略引起的演示偏差，有效提高了样本利用率并准确估计奖励和转移模型，该方法在合成 MDP 和转移学习任务上都得到了改进。

Apr, 2016

具有次优专家的逆强化学习

给定一个包含多个次优专家行为的问题，我们将逆向强化学习（IRL）方法扩展到了这种情况，研究了与给定专家集兼容的奖励函数的理论性质，并分析了使用生成模型估计可行奖励集的统计复杂性，得到了一个具有极小极大最优性的均匀采样算法。

Jan, 2024

具有约束恢复的逆强化学习

本文提出了基于最大熵原理的逆强化学习算法，用于推断约束非凸最优化问题的奖励函数和约束条件，并采用指数梯度下降算法解决约束问题。通过在网格世界环境中的实验验证了该算法的效力。

May, 2023

均场博弈中最大因果熵逆向强化学习

我们介绍了关于离散时间平均场博弈下最大因果熵逆强化学习问题。我们通过综述确定性和随机马尔科夫决策过程在有限和无限时域情景下的最大熵逆强化学习问题，提出了最大因果熵逆强化学习问题，这是一个非凸优化问题。我们使用线性规划的方式对问题进行了重构，建立了一个梯度下降算法来计算最优解，并通过将平均场博弈问题转化为广义纳什均衡问题来提出一种新算法。该算法可用于计算正向强化学习问题的平均场均衡，并应用于数值示例。我们注意到，该算法也适用于一般的平均场均衡计算。

Jan, 2024

最大熵深层逆强化学习

本文提出了一个利用神经网络的表征能力来近似复杂的非线性奖励函数以解决反向强化学习问题的一般框架，并展示了最大熵范例在 IRL 中的有效训练方法，具有与现有基准相当的性能，超过基于高度变化奖励结构的替代基准。同时，作者将基本架构扩展为包括更大的卷积以消除对预计算空间特征的依赖并运作在原始输入表示上。

Jul, 2015

逆强化学习综述：挑战、方法与进展

本文对逆强化学习领域的现有文献进行了分类调查，介绍了 IRL 问题和其挑战，讨论了目前的解决方法，并探讨了处理传感不准确、不完整的模型、多个奖励函数和非线性奖励函数等问题的方法，同时总结了该领域的研究进展和当前未解决的问题。

Jun, 2018

逆强化学习的最大似然约束推断

本文针对马可夫决策过程上的反向强化学习问题，即通过一个环境模型以及一个奖励函数，推断出状态、行动、和特征限制，以此来激励智能体的行为。本文针对该问题提出了一个基于最大熵 IRL 的方法，并提出了一个迭代算法，以最大似然的方式推断最佳的约束条件，同时通过仿真实验和现实数据验证了其有效性。

Sep, 2019