Apr, 2023

倒置强化学习的理论理解

TL;DR本文中,我们介绍了使用生成模型的有限时间问题中逆强化学习(IRL)的可行奖赏估计问题,提出了关于可行奖赏集合的最小最大下界,并分析了平均复杂度。