Dec, 2020

DERAIL:面向奖励和模仿学习的诊断环境

TL;DR通过开发一套简单的诊断任务,并对常见的奖励学习和模仿学习算法进行评估,本研究证实算法的性能高度依赖于实现细节,其中还揭示了套件如何确定设计缺陷并快速评估解决方案的案例研究。