Jun, 2024

从示范中进行情节主动强化学习:给我一个像这样的例子

TL;DR提出了 EARLY (Episodic Active Learning from demonstration querY) 算法,通过在基于轨迹的特征空间中生成优化的专家演示查询,改善了学习过程中的人类教学体验和学习性能。在三个逐渐增加的导航任务中验证了方法的有效性,结果表明,当演示由模拟的专家策略生成时,我们的方法在所有三个任务中达到了专家水平的性能,收敛速度比其他基准方法快 30% 以上。随后的用户研究结果证实,在人类专家演示者的情况下,我们的方法仍然可以保持显著更好的收敛性能,同时在任务负荷感知和消耗的人类时间方面实现了更好的用户体验。