Feb, 2024

逆强化学习中悲观主义的优点

TL;DR通过使用离线RL算法作为IRL过程的一部分,我们能够更有效地找到与专家表现相匹配的策略。