ICMLMay, 2024

如何在离线模仿学习中利用多样化的示范

TL;DR离线仿真学习(IL)在实际领域中由于专家数据的稀缺性而受到越来越多的关注。本文介绍了一种简单而有效的数据选择方法,基于其结果状态识别积极行为,从而更好地利用动态信息并有效地提取专家行为和有益的多样行为。通过在复杂和高维离线 IL 基准测试中的实验评估,结果表明我们的方法达到了最先进的性能,在 20/21 个基准测试中超越了现有方法,通常是 2-5 倍,并且与行为克隆(BC)保持可比的运行时间。