基于漏斗的信号时序逻辑强化学习
通过直接学习神经网络控制器以满足信号时间逻辑 (STL) 的要求,以确保长期机器人任务的安全性和满足时间规范的挑战。同时,采用备用策略以保证控制器故障时的安全性。该方法可以适应不同的初始条件和环境参数,并在复杂的 STL 规范任务中以 10 倍至 100 倍速度快于传统方法。
Sep, 2023
该论文提出了一种利用近似解决 STL 综合问题的方法,通过最大化已知的效果指标来学习未知随机动态系统的最优策略,在模拟中验证了该方法的有效性。
Sep, 2016
本论文提出了一种新的基于 STL 模板的多智能体强化学习算法以指导奖励设计,实验证明相比没有 STL 指导的情况下,算法能够显著提高多智能体系统的性能和安全性。
Jun, 2023
本文提出了一个基于计算框架的分布式控制策略合成方法,用于处理存在部分观测的异质机器人团队,旨在满足 Truncated Linear Temporal Logic(TLTL)规范,其方法将综合问题表述为一个随机博弈,并采用策略图方法为每个机器人寻找具有内存的控制策略,模拟结果表明其解决方案的有效性和奖励塑形的有效性。
Mar, 2022
本文提出了 Truncated Linear Temporal Logic (TLTL) 以及与之相应的鲁棒性度量作为奖励函数的强化学习方法,用以解决机器人应用中复杂任务的学习问题。在仿真实验和 Baxter 机器人的任务中,表现出了优异的鲁棒性能。
Dec, 2016
本研究提出一种基于强化学习的控制策略综合算法,用于最大化满足作为线性时序逻辑公式给出的高级控制目标的概率。该算法将 LTL 规范转换为限制性确定布琦自动机,再与具有不确定工作空间特性、结构和智能体行为的 PL-MDP 合并进行训练,从而生成满足概率的最大值。
Sep, 2019
该研究介绍了一种交互式学习方法,能够从自然语言描述中学习正确、简洁的统一信号时序逻辑公式,并使用深度 Q 学习算法确定机器人的最优控制策略。
Jul, 2022
本文旨在通过研究基于信号时间逻辑(STL)的控制问题的鲁棒度评估方法,从如何帮助基于学习的解决方案的角度探讨现有和潜在的鲁棒度评估方法。研究表明,这项新的鲁棒度测量方法对于加速学习过程非常有效,并通过实例研究进行了验证。
Mar, 2020
我们提出了一种利用信号时态逻辑 (Signal Temporal Logic, STL) 指定复杂时态规则并使用决策变压器 (Decision Transformer, DT) 进行顺序建模的新框架,称为时态逻辑规范化决策变压器 (Specification-conditioned Decision Transformer, SDT),在 DSRL 基准测试上的实证评估表明,与现有方法相比,SDT 学习安全且高奖励策略的能力更强,并且 SDT 在满足不同 STL 规范要求的程度方面表现良好。
Feb, 2024