具有约束恢复的逆强化学习

May, 2023

Inverse Reinforcement Learning With Constraint Recovery

Nirjhar Das, Arpan Chattopadhyay

TL;DR本文提出了基于最大熵原理的逆强化学习算法，用于推断约束非凸最优化问题的奖励函数和约束条件，并采用指数梯度下降算法解决约束问题。通过在网格世界环境中的实验验证了该算法的效力。

Abstract

In this work, we propose a novel inverse reinforcement learning (IRL) algorithm for constrained markov decision process (CMDP) problems. In standard IRL problems, the inverse learner or agent seeks to recover the