基于深度强化学习策略的分层控制器合成

Feb, 2024

基于深度强化学习策略的分层控制器合成

Synthesis of Hierarchical Controllers Based on Deep Reinforcement Learning Policies

Florent Delgrange, Guy Avni, Anna Lukina, Christian Schilling, Ann Nowé...

TL;DR我们提出了一种新颖的方法来解决以马尔可夫决策过程（MDP）建模的环境的控制器设计问题。具体而言，我们考虑了一个层次 MDP，该图的每个顶点由一个名为 “房间” 的 MDP 填充。我们首先应用深度强化学习（DRL）来获取每个房间的低级策略，适用于未知结构的大型房间。然后，我们应用反应合成来获取一个高级规划器，该规划器选择在每个房间中执行哪个低级别策略。在综合规划器中的核心挑战是对房间建模的需求。我们通过开发一种 DRL 过程来训练简洁的 “潜在” 策略以及对其性能的 PAC 保证来解决这一挑战。与以前的方法不同，我们的方法避开了模型蒸馏步骤。我们的方法解决了 DRL 中稀疏奖励的问题，并实现了低级策略的可重用性。我们通过一个案例研究展示了可行性，该研究涉及在移动障碍物中的智能体导航。

Abstract

We propose a novel approach to the problem of controller design for environments modeled as markov decision processes (MDPs). Specifically, we consider a →

controller design markov decision processes hierarchical mdp deep reinforcement learning reactive synthesis

发现论文，激发创造

通过深度强化学习管理具有大状态和动作空间的工程系统

本文提出了一种综合的深度强化学习框架 - DCMAC，使用深度函数近似和分解表示系统动作来提供高维空间中大型多组件系统的高效生命周期策略，相对于基于时间、条件和周期策略的优化基线，DCMAC 表现更好。

Nov, 2018

强化学习在定向控制器合成中的扩展应用

本研究提出使用强化学习基于状态特征学习启发式启发式方法且优化了 Deep Q-Network，以用于解决离散事件系统中的无阻塞属性，实现在小规模问题上的学习推广到更大规模问题实例，结果表明其效果更好。

Oct, 2022

层次深度强化学习下的复合任务完成对话策略学习

本文针对复杂任务对话代理的构建问题，如旅行规划，通过将任务公式化为基于马尔可夫决策过程的选项数学框架，并提出一种层次深度强化学习方法来学习不同时间尺度上运行的对话管理器，包括顶层对话策略、低层对话策略和全局状态跟踪器，实验结果表明该方法在模拟和真实用户的旅行规划任务中，相比于三个基于手工规则和基于平面深度强化学习的基准系统，有显著的改进。

Apr, 2017

分布式多智能体协作的对手建模层次强化学习

本文介绍了一种基于深度强化学习的多智能体协作方法，通过分布式学习实现了高效的策略搜索，并在合作变道场景中进行了仿真和实际案例验证。

Jun, 2022

虚拟室内场景中家具布局的分层强化学习

本文使用层次化强化学习 (HRL) 将家具布局任务作为马尔科夫决策过程 (MDP) 完成，以实现在室内场景的虚拟现实中产生适当的二家具布局，最终结果表明该模型可以产生比现有模型更高质量的布局。

Oct, 2022

强化学习规范转换框架

提出了一个形式框架，为定义不同形式目标的 RL 任务之间的转换提供了形式化定义，研究了这种转换的保持最优策略、收敛和稳健性的概念，证明了从 LTL 规范到基于奖励的规范的某些缩减不存在，证明了 RL 算法不存在 PAC-MDP 保证安全规范。

Oct, 2021

基于像素的深度分层规划

通过在一个学习好的世界模型的潜在空间 planning，我们引入了一种名叫 Director 的实用方法，直接从像素学习分层行为，无需手动指定目标空间或子任务，并在具有稀疏奖励的任务中表现超越了探索方法。

Jun, 2022

神经模块化控制 —— 为具身问答而生

该研究提出了一种模块化的方法，利用语言输入学习长期规划的导航策略。他们的分层策略在多个时间尺度上运行，并使用模块化和语义子目标，通过模仿学习和强化学习相结合的方法在 EQA 基准上表现出色，无论是在导航还是问题回答方面均优于前人工作。

Oct, 2018

学习多级层次结构及回溯

本文介绍了一种新的 Hierarchical Reinforcement Learning (HRL) 框架 - Hierarchical Actor-Critic (HAC)，该框架能够克服在试图同时学习多个策略层级时出现的不稳定性问题，并能够在连续状态和动作空间的任务中成功地学习 3 级层级。

Dec, 2017

具有 AI 规划模型的分层强化学习

本研究提出了一种将高层次 AI 规划与强化学习相结合的综合方法，通过建立 AI 规划问题的状态转换模型与马尔科夫决策过程的抽象状态转换系统之间的对应关系，使用内在奖励学习定义层次强化学习中的操作，以增强其一致性与从容。实验结果表明，与现有方法相比，该方法在 MiniGrid 和 N 房间环境中表现更好。

Mar, 2022