Mar, 2024

连续零均值争议正则化仿真学习 (CMZ-DRIL)

TL;DR用连续的、均值为零的奖励函数通过模拟专家展示学习的方法,在有限的专家演示情况下提高模仿学习代理的性能。