Jan, 2022

受损演示下的稳健模仿学习

TL;DR本文提出解决离线模仿学习中存在数据噪音或离群点的问题的新型算法,通过最小化 Median-of-Means 目标函数对策略进行准确估计,实现精确的离群点估计和稳健性,同时实验证明在存在异常数据的情况下与传统 Behavior Cloning 算法相比有相同的误差和样本复杂性保证。