Feb, 2024

逆强化学习中悲观主义的优点

TL;DR通过使用离线 RL 算法作为 IRL 过程的一部分,我们能够更有效地找到与专家表现相匹配的策略。