一种鲁棒逆强化学习的贝叶斯方法

Sep, 2023

一种鲁棒逆强化学习的贝叶斯方法

A Bayesian Approach to Robust Inverse Reinforcement Learning

Ran Wei, Siliang Zeng, Chenliang Li, Alfredo Garcia, Anthony McDonald...

TL;DR我们提出了一种贝叶斯方法来进行离线模型基于的逆向强化学习(IRL)。该方法通过同时估计专家的奖励函数和对环境动态的主观模型，与现有的离线模型基于IRL方法有所不同。我们利用一类先验分布，参数化了专家对环境的模型准确性，以此开发出高维环境中估计专家奖励和主观动态的高效算法。我们的分析揭示了一个新的观点，即当先验认为专家对环境有高度准确的模型时，估计出的策略表现出了稳健的性能。我们在MuJoCo环境中验证了这个观察结果，并展示了我们的算法在离线IRL问题上优于最先进的方法。

Abstract

We consider a bayesian approach to offline model-based inverse reinforcement learning (IRL). The proposed framework differs from existing offline model-based irl approaches by performing simultaneous estimation o

发现论文，激发创造

偏好引导和逆强化学习

通过偏好评估，我们提出了Bayesian逆强化学习的一个方法，可以从观察到的信息中得出代理的偏好、策略和奖励序列的后验分布，并通过分析和实验结果展示与其他统计逆强化学习方法之间的关系。结果表明，即使观察到的代理策略不是最优的，我们也能够准确确定其偏好，并得出更好的策略。

Apr, 2011

未知环境下的概率逆向强化学习

我们考虑了在未知的随机马尔可夫环境或游戏中，从代理人的示范学习的问题。我们旨在估计代理人的偏好，以构建同一任务的改进策略。为了做到这一点，我们将已知MDP中逆强化学习的概率方法扩展到未知动态或对手的情况。我们通过导出演示者策略和效用的两个简化概率模型来实现这一点，为了易于处理，我们使用了最大后验估计而不是完整的贝叶斯推断。在先验分布相同的情况下，这结果是凸优化问题。我们发现所得到的算法与其他了解动态的逆强化学习方法相比具有很高的竞争力。

Aug, 2014

同时估计奖励与动态的逆强化学习

本文提出了一种基于梯度的逆强化学习方法，同时估计系统动态，以后解决由生成策略引起的演示偏差，有效提高了样本利用率并准确估计奖励和转移模型，该方法在合成MDP和转移学习任务上都得到了改进。

Apr, 2016

逆强化学习综述：挑战、方法与进展

本文对逆强化学习领域的现有文献进行了分类调查，介绍了IRL问题和其挑战，讨论了目前的解决方法，并探讨了处理传感不准确、不完整的模型、多个奖励函数和非线性奖励函数等问题的方法，同时总结了该领域的研究进展和当前未解决的问题。

Jun, 2018

逆强化学习的最大似然约束推断

本文针对马可夫决策过程上的反向强化学习问题，即通过一个环境模型以及一个奖励函数，推断出状态、行动、和特征限制，以此来激励智能体的行为。本文针对该问题提出了一个基于最大熵IRL的方法，并提出了一个迭代算法，以最大似然的方式推断最佳的约束条件，同时通过仿真实验和现实数据验证了其有效性。

Sep, 2019

CLARE: 离线反向强化学习中保守的基于模型的奖励学习

该论文提出了一种名为CLARE的算法，该算法通过将“保守性”纳入学习的奖励函数并利用估计的动力学模型来解决离线逆强化学习中的奖励外推错误问题，其得到的学习奖励函数是高度可指导后续的学习，通过大量实验证明了CLARE相较于现有最先进算法在MuJoCo连续控制任务上的明显性能提升。

Feb, 2023

通过展示理解专业技能：一种离线逆向强化学习的最大似然框架

研究了离线逆向强化学习的问题，提出了一种基于双层优化的估计任务公式与新的算法框架来解决这个问题，并在MuJoCo中的连续控制任务以及D4RL基准测试中的不同数据集上，展示了算法胜过现有最先进的离线IRL和模仿学习基准测试大量的结果。

Feb, 2023

核密度贝叶斯逆强化学习

介绍了一种使用基于条件核密度估计的贝叶斯逆转奖励学习（KD-BIRL）的算法，该算法能更有效地近似似然函数和应用于具有复杂和无限状态空间的环境，并在Gridworld环境和虚拟sepsis治疗任务中展示了其优势。

Mar, 2023

反向强化学习是否比标准强化学习更困难？

逆强化学习（IRL）是学习奖励函数的问题，该问题通过对专家策略的演示来开发理解和模仿人类行为等智能系统起着关键作用。本文提供了首批有效的IRL结果，包括离线和在线设置，使用多项式采样和运行时间等方面的效率。使用RLP和RLE算法，我们分别设计了离线和在线设置的IRL算法，并建立了样本复杂度的下界，表明RLP和RLE算法是近乎最优的。此外，我们还展示了学习的奖励函数在具有适当相似性假设的目标MDP上的转移能力。

Nov, 2023

离线逆强化学习：新的解决方案概念和可证明高效算法

逆强化学习（IRL）的目标是从行为示范中恢复专家智能体的奖励函数。本文介绍了一种新的可行奖励集概念，捕捉了离线设置的机会和限制，并分析了其估计的复杂性。通过引入针对该设置固有困难的原始学习框架，我们提出了两种计算和统计高效的算法，IRLO和PIRLO，用于解决这个问题。

Feb, 2024