动态多智体系统的分层控制器综合
我们提出了一种时间分层框架 (TLA),以最小化能量消耗进行时间自适应控制。 TLAlayer 了一个快速和一个慢速策略以实现时间抽象,使每层专注于不同的时间尺度。我们的设计借鉴了人脑的节能机制,根据环境要求在不同的时间尺度下执行动作。我们在一套连续控制任务上评估了我们的方法,并展示了 TLA 在多个重要指标上的显着优势,包括持续探索,所需决策减少,抖动减少和操作重复增加。我们还引入了一个多目标评分,以定性评估连续控制策略,并展示了 TLA 的得分显着更高。我们的训练算法在慢速和快速层之间使用最少的通信来同时训练两个策略,使其适用于分布式控制的未来应用。
May, 2023
该研究提出可适应时间分布式控制的分层式体系结构,该设计模仿人脑的架构,在不同时间尺度上执行动作以适应环境的需求,通过两种不同的算法进行训练,并在连续控制任务中证明比现有方法具有优势。
Dec, 2022
提出一个计算高效的数据驱动式混合自动机建模方法,基于多个神经网络来捕捉未知复杂系统的行为,并且采用区间分析和分裂合并过程来提供集值可达性分析,以减少可达集计算的计算成本同时不影响建模精度。
Apr, 2023
介绍一种新的 “系统级”(SL)方法,该方法通过三个互补的 SL 元素将控制器设计、性能和可实施性进行了参数化,进而解决了生物学和高级网络物理控制系统中通讯、计算、感知和执行等方面的限制性问题。
Oct, 2016
本文提出了一个基于计算框架的分布式控制策略合成方法,用于处理存在部分观测的异质机器人团队,旨在满足 Truncated Linear Temporal Logic(TLTL)规范,其方法将综合问题表述为一个随机博弈,并采用策略图方法为每个机器人寻找具有内存的控制策略,模拟结果表明其解决方案的有效性和奖励塑形的有效性。
Mar, 2022
使用多层次组合推理代理(MCR-Agent)将任务分解为多个子目标,分别处理导航和交互,实现了对复杂任务的有效执行,并在效率指标上相较于现有技术获得了 2.03%的绝对增益,无需使用基于规则的计划或语义空间记忆。
Aug, 2023
通过 Meta-Control,我们提出了第一个 LLM(Language and Vision Model)驱动的自动控制合成方法,该方法可以创建特定任务定制的状态表示和控制策略,解决了现实世界中多样且矛盾的机器人操作需求,为建立通用的机器人基础模型提供了思路。
May, 2024
我们提出了一种新颖的方法来解决以马尔可夫决策过程(MDP)建模的环境的控制器设计问题。具体而言,我们考虑了一个层次 MDP,该图的每个顶点由一个名为 “房间” 的 MDP 填充。我们首先应用深度强化学习(DRL)来获取每个房间的低级策略,适用于未知结构的大型房间。然后,我们应用反应合成来获取一个高级规划器,该规划器选择在每个房间中执行哪个低级别策略。在综合规划器中的核心挑战是对房间建模的需求。我们通过开发一种 DRL 过程来训练简洁的 “潜在” 策略以及对其性能的 PAC 保证来解决这一挑战。与以前的方法不同,我们的方法避开了模型蒸馏步骤。我们的方法解决了 DRL 中稀疏奖励的问题,并实现了低级策略的可重用性。我们通过一个案例研究展示了可行性,该研究涉及在移动障碍物中的智能体导航。
Feb, 2024
该论文介绍了一种解决具有未知和随机系统动力学以及 LTL 编码任务的神经网络控制器的时间组合问题的新方法,该方法整合了自动机理论和数据驱动的可达性分析工具,通过基本技能的复合生成安全行为,通过数值模拟和实验验证了该方法。
Nov, 2023
该研究提出了一种模块化的方法,利用语言输入学习长期规划的导航策略。他们的分层策略在多个时间尺度上运行,并使用模块化和语义子目标,通过模仿学习和强化学习相结合的方法在 EQA 基准上表现出色,无论是在导航还是问题回答方面均优于前人工作。
Oct, 2018