Jan, 2024

具有次优专家的逆强化学习

TL;DR给定一个包含多个次优专家行为的问题,我们将逆向强化学习(IRL)方法扩展到了这种情况,研究了与给定专家集兼容的奖励函数的理论性质,并分析了使用生成模型估计可行奖励集的统计复杂性,得到了一个具有极小极大最优性的均匀采样算法。