Feb, 2024

通过估计演示者的专业知识进行逆强化学习

TL;DR使用不完美和异构演示在模仿学习中存在相当大的挑战,本文介绍了一种名为 IRLEED 的新框架,通过估计演示者的专业水准,克服了现有逆强化学习算法中对不完善演示的缺陷,并结合最大熵逆强化学习框架从多样的不完善演示中高效地得出最优策略。通过在线和离线模仿学习设置以及模拟和人工生成的数据进行的实验表明,IRLEED 具有适应性和有效性,成为从不完善演示中学习的通用解决方案。