动态多智体系统的分层控制器综合

Jul, 2023

动态多智体系统的分层控制器综合

Layered controller synthesis for dynamic multi-agent systems

Emily Clement, Nicolas Perrin-Gilbert, Philipp Schlehuber-Caissier

TL;DR该论文针对多智能体控制问题提出了分层方法，其中包括三个阶段：计算系统的高级计划、通过 SMT 公式处理组合问题，以及使用强化学习获得神经网络控制策略，由于其正确性具有构建性，但缺乏实时执行功能，因此使用 SWA-SMT 解决方案作为最后阶段的初始训练数据集

Abstract

In this paper we present a layered approach for multi-agent control problem, decomposed into three stages, each building upon the results of the previous one. First, a high-level plan for a coarse abstraction of the system is computed, relying on →

multi-agent control parametric timed automata swa-smt solver reinforcement learning neural network control policy

发现论文，激发创造

高效连续控制的时间分层架构

我们提出了一种时间分层框架 (TLA)，以最小化能量消耗进行时间自适应控制。 TLAlayer 了一个快速和一个慢速策略以实现时间抽象，使每层专注于不同的时间尺度。我们的设计借鉴了人脑的节能机制，根据环境要求在不同的时间尺度下执行动作。我们在一套连续控制任务上评估了我们的方法，并展示了 TLA 在多个重要指标上的显着优势，包括持续探索，所需决策减少，抖动减少和操作重复增加。我们还引入了一个多目标评分，以定性评估连续控制策略，并展示了 TLA 的得分显着更高。我们的训练算法在慢速和快速层之间使用最少的通信来同时训练两个策略，使其适用于分布式控制的未来应用。

May, 2023

自适应、分布式和连续控制的时间分层架构

该研究提出可适应时间分布式控制的分层式体系结构，该设计模仿人脑的架构，在不同时间尺度上执行动作以适应环境的需求，通过两种不同的算法进行训练，并在连续控制任务中证明比现有方法具有优势。

Dec, 2022

基于数据驱动的混合自动机框架用于建模复杂动态系统

提出一个计算高效的数据驱动式混合自动机建模方法，基于多个神经网络来捕捉未知复杂系统的行为，并且采用区间分析和分裂合并过程来提供集值可达性分析，以减少可达集计算的计算成本同时不影响建模精度。

Apr, 2023

控制器综合的系统级方法

介绍一种新的 “系统级”（SL）方法，该方法通过三个互补的 SL 元素将控制器设计、性能和可实施性进行了参数化，进而解决了生物学和高级网络物理控制系统中通讯、计算、感知和执行等方面的限制性问题。

Oct, 2016

基于时序逻辑奖励塑形的强化学习分布式控制

本文提出了一个基于计算框架的分布式控制策略合成方法，用于处理存在部分观测的异质机器人团队，旨在满足 Truncated Linear Temporal Logic（TLTL）规范，其方法将综合问题表述为一个随机博弈，并采用策略图方法为每个机器人寻找具有内存的控制策略，模拟结果表明其解决方案的有效性和奖励塑形的有效性。

Mar, 2022

多层级组合推理的互动指令跟随

使用多层次组合推理代理（MCR-Agent）将任务分解为多个子目标，分别处理导航和交互，实现了对复杂任务的有效执行，并在效率指标上相较于现有技术获得了 2.03％的绝对增益，无需使用基于规则的计划或语义空间记忆。

Aug, 2023

元控制：异质机器人技能的自动模型控制合成

通过 Meta-Control，我们提出了第一个 LLM（Language and Vision Model）驱动的自动控制合成方法，该方法可以创建特定任务定制的状态表示和控制策略，解决了现实世界中多样且矛盾的机器人操作需求，为建立通用的机器人基础模型提供了思路。

May, 2024

基于深度强化学习策略的分层控制器合成

我们提出了一种新颖的方法来解决以马尔可夫决策过程（MDP）建模的环境的控制器设计问题。具体而言，我们考虑了一个层次 MDP，该图的每个顶点由一个名为 “房间” 的 MDP 填充。我们首先应用深度强化学习（DRL）来获取每个房间的低级策略，适用于未知结构的大型房间。然后，我们应用反应合成来获取一个高级规划器，该规划器选择在每个房间中执行哪个低级别策略。在综合规划器中的核心挑战是对房间建模的需求。我们通过开发一种 DRL 过程来训练简洁的 “潜在” 策略以及对其性能的 PAC 保证来解决这一挑战。与以前的方法不同，我们的方法避开了模型蒸馏步骤。我们的方法解决了 DRL 中稀疏奖励的问题，并实现了低级策略的可重用性。我们通过一个案例研究展示了可行性，该研究涉及在移动障碍物中的智能体导航。

Feb, 2024

经证实的时序逻辑任务的神经符号控制在随机系统中的运用

该论文介绍了一种解决具有未知和随机系统动力学以及 LTL 编码任务的神经网络控制器的时间组合问题的新方法，该方法整合了自动机理论和数据驱动的可达性分析工具，通过基本技能的复合生成安全行为，通过数值模拟和实验验证了该方法。

Nov, 2023

神经模块化控制 —— 为具身问答而生

该研究提出了一种模块化的方法，利用语言输入学习长期规划的导航策略。他们的分层策略在多个时间尺度上运行，并使用模块化和语义子目标，通过模仿学习和强化学习相结合的方法在 EQA 基准上表现出色，无论是在导航还是问题回答方面均优于前人工作。

Oct, 2018