Oct, 2022

运动基元的深度黑盒强化学习

TL;DR本篇论文提出了一种基于可微分的信任区间层的深度Episode-based 强化学习算法,通过在高精度的情景下更新策略,使得不能被Step-based算法解决的稀疏奖励和非马尔科夫奖励能够被优化。在解决复杂的机器人控制任务方面,该算法优于 Step-based 算法,并且稀疏和非马尔科夫奖励更适合定义所需的行为参数,以获得更高质量的策略。