ICMLJun, 2022

环境动力学变化下的强化模仿学习

TL;DR本文介绍了一种健壮的模仿学习(IL)框架,可以提高在环境动态发生扰动时的鲁棒性。通过模拟多个不同环境的专家来增强鲁棒性,并通过利用 Jensen-Shannon 散度来最小化风险以提高算法的性能。结果表明,该算法相比于传统的 IL 方法可以显著提高在动态扰动下的鲁棒性。