Apr, 2022

模仿,快与慢:通过决策时规划的演示鲁棒学习

TL;DR提出了一种新的模拟学习元算法 IMPLANT,利用决策时间规划来纠正模仿策略的复合误差,从而实现比基准模仿学习方法更好的实验效果,在挑战性测试时动态运行。