AAAIJan, 2022

人类驱动动态数据集扩充改进行为克隆

TL;DR本文介绍了如何将行为克隆与人在环环学习相结合,利用一种新方法在模拟中允许专家随时控制代理并提供最优解,从而解决了行为克隆中的一些缺陷,提高了训练效率和降低了所需资源,实验表明该方法在定量评估和人类相似性方面都具有更好的效果。