AAAIAug, 2018

自主系统从人类互动中的学习周期

TL;DR探讨如何训练端到端的增强学习算法,提供了分类人类干预模式的模型,结合了不同的人机交互方式,定义了不同模式间的切换标准。