Jun, 2023

基于运动基元的(再)规划策略

TL;DR本文介绍了一种名为MP3的深度强化学习方法,它通过将运动原语(MPs)整合到深度RL框架中,实现了在整个学习过程中生成平滑轨迹的能力,同时有效地从稀疏且非马尔可夫奖励中学习,还具有在执行过程中适应环境变化的能力,该方法相较于现有的深度RL和RL结合MPs等方法,在复杂、稀疏奖励环境和需要重规划的领域中表现出更好的性能。