逆强化学习的最大似然约束推断

Sep, 2019

Maximum Likelihood Constraint Inference for Inverse Reinforcement Learning

Dexter R. R. Scobee, S. Shankar Sastry

TL;DR本文针对马可夫决策过程上的反向强化学习问题，即通过一个环境模型以及一个奖励函数，推断出状态、行动、和特征限制，以此来激励智能体的行为。本文针对该问题提出了一个基于最大熵IRL的方法，并提出了一个迭代算法，以最大似然的方式推断最佳的约束条件，同时通过仿真实验和现实数据验证了其有效性。

Abstract

While most approaches to the problem of inverse reinforcement learning (IRL) focus on estimating a reward function that best explains an expert agent's policy or demonstrated behavior on a control task, it is often the case that such behavior is more succinctly described by a simple re

发现论文，激发创造

同时估计奖励与动态的逆强化学习

本文提出了一种基于梯度的逆强化学习方法，同时估计系统动态，以后解决由生成策略引起的演示偏差，有效提高了样本利用率并准确估计奖励和转移模型，该方法在合成MDP和转移学习任务上都得到了改进。

Apr, 2016

逆强化学习综述：挑战、方法与进展

本文对逆强化学习领域的现有文献进行了分类调查，介绍了IRL问题和其挑战，讨论了目前的解决方法，并探讨了处理传感不准确、不完整的模型、多个奖励函数和非线性奖励函数等问题的方法，同时总结了该领域的研究进展和当前未解决的问题。

Jun, 2018

反向受限强化学习

研究使用强化学习智能体从行为演示中学习约束以及将其迁移到具有不同形态和奖励功能的新智能体的方法，建立了能够在高维度完全无模型的情况下学习任意 Markovian 约束的框架，并且该方法与之前的工作相比，在离散设置、特定类型约束和环境转移动力学等方面表现更好。

Nov, 2020

从演示中学习行为软约束

本研究提出了一种新的逆强化学习方法，用于学习马尔可夫决策过程模型中人类在复杂环境中制定决策时的约束和偏好，从而在AI与人类的团队中更好的模拟人类行为和提高决策效率。

Feb, 2022

POMDP中的Task-Guided IRL

本文提出了一种新算法，用于部分可观测的马尔可夫决策过程中的反向强化学习，可增加数据效率并减少信息不对称，通过融合时间逻辑表达式作为先验信息，使用因果熵而不是熵，防止算法复杂度的通用来源，有效地解决了非凸问题，并在高级 Unity 仿真器中进行了实验，结果表明该算法具有较高的性能。

Dec, 2022

最大因果熵限制的强化学习

提出一种基于最大因果熵的方法来学习环境约束下的最优策略，该方法利用在约束下运作的代理的演示进行学习，证明了其在表格设置中的收敛性并提供了一个可扩展到复杂环境的近似值。通过评估奖励和约束违规数，评估学习策略的有效性，并基于其在其他代理中的可转移性评估学习成本函数。此方法已经在各种任务和环境中表现优于现有技术，能够处理具有随机动态和连续状态动作空间的问题。

May, 2023

具有约束恢复的逆强化学习

本文提出了基于最大熵原理的逆强化学习算法，用于推断约束非凸最优化问题的奖励函数和约束条件，并采用指数梯度下降算法解决约束问题。通过在网格世界环境中的实验验证了该算法的效力。

May, 2023

一种鲁棒逆强化学习的贝叶斯方法

我们提出了一种贝叶斯方法来进行离线模型基于的逆向强化学习(IRL)。该方法通过同时估计专家的奖励函数和对环境动态的主观模型，与现有的离线模型基于IRL方法有所不同。我们利用一类先验分布，参数化了专家对环境的模型准确性，以此开发出高维环境中估计专家奖励和主观动态的高效算法。我们的分析揭示了一个新的观点，即当先验认为专家对环境有高度准确的模型时，估计出的策略表现出了稳健的性能。我们在MuJoCo环境中验证了这个观察结果，并展示了我们的算法在离线IRL问题上优于最先进的方法。

Sep, 2023

反向强化学习是否比标准强化学习更困难？

逆强化学习（IRL）是学习奖励函数的问题，该问题通过对专家策略的演示来开发理解和模仿人类行为等智能系统起着关键作用。本文提供了首批有效的IRL结果，包括离线和在线设置，使用多项式采样和运行时间等方面的效率。使用RLP和RLE算法，我们分别设计了离线和在线设置的IRL算法，并建立了样本复杂度的下界，表明RLP和RLE算法是近乎最优的。此外，我们还展示了学习的奖励函数在具有适当相似性假设的目标MDP上的转移能力。

Nov, 2023

贝叶斯逆强化学习用于非马尔可夫奖励

从专家行为中直接推断出奖励机制（RM）的贝叶斯逆强化学习（BIRL）框架，以非Markovian奖励函数为基础进行了重大改进，新的奖励空间定义，将专家示范调整为包括历史，展示了计算奖励后验的方法，并提出了一种模拟退火的新修改方案来最大化后验，通过优化其推断的奖励表现出良好性能，并与学习严格二值非Markovian奖励的现有方法进行了有利比较。

Jun, 2024