Apr, 2023

自动机导向下的强化学习智能体课程生成

TL;DR提出了AGCL,一种基于确定性有限状态自动机(DFA)和面向对象马尔可夫决策过程(OOMDP)表示法的自动生成课程的方法,该方法在格子世界和基于物理仿真的机器人领域中的实验表明,AGCL 产生的课程在时间阈值性能上比最先进的课程学习和自动机引导强化学习技术实现了性能的提高。