AAAIFeb, 2019

在模拟环境中学习如何学习

TL;DR本研究使用深度强化学习技术训练一种好奇心代理以促进物体检测模型在线学习。我们还提出了一种奖励函数,以权衡代理的两个目标:尽快完成训练或尽可能少地进行人工介入,并考虑了 drone 平台的部分物理特性。