ICLRSep, 2019

逆强化学习的最大似然约束推断

TL;DR本文针对马可夫决策过程上的反向强化学习问题,即通过一个环境模型以及一个奖励函数,推断出状态、行动、和特征限制,以此来激励智能体的行为。本文针对该问题提出了一个基于最大熵 IRL 的方法,并提出了一个迭代算法,以最大似然的方式推断最佳的约束条件,同时通过仿真实验和现实数据验证了其有效性。