Feb, 2024

基于深度强化学习策略的分层控制器合成

TL;DR我们提出了一种新颖的方法来解决以马尔可夫决策过程(MDP)建模的环境的控制器设计问题。具体而言,我们考虑了一个层次 MDP,该图的每个顶点由一个名为 “房间” 的 MDP 填充。我们首先应用深度强化学习(DRL)来获取每个房间的低级策略,适用于未知结构的大型房间。然后,我们应用反应合成来获取一个高级规划器,该规划器选择在每个房间中执行哪个低级别策略。在综合规划器中的核心挑战是对房间建模的需求。我们通过开发一种 DRL 过程来训练简洁的 “潜在” 策略以及对其性能的 PAC 保证来解决这一挑战。与以前的方法不同,我们的方法避开了模型蒸馏步骤。我们的方法解决了 DRL 中稀疏奖励的问题,并实现了低级策略的可重用性。我们通过一个案例研究展示了可行性,该研究涉及在移动障碍物中的智能体导航。