Sep, 2022

使用逆强化学习中的结构图案进行奖励学习

TL;DR本文研究了当前 IRL 方法在长期和复杂的顺序任务中学习代理奖励函数的无效性,并提出了一种新的 IRL 方法 SMIRL,该方法将任务结构化为有限状态自动机,然后使用结构性动机来解决 IRL 问题。通过离散和高维度连续环境的测试实验,我们证明了该方法的有效性和高效性,并表明其在具有组合奖励函数的任务中仍然表现良好。