基于漏斗的信号时序逻辑强化学习

Nov, 2022

基于漏斗的信号时序逻辑强化学习

Reinforcement Learning for Signal Temporal Logic using Funnel-Based Approach

Naman Saxena, Gorantla Sandeep, Pushpak Jagtap

TL;DR本文介绍一种基于 funnel functions 的可行强化学习算法，用于实现连续状态空间中 STL 规范的鲁棒满足，并在摆和移动机器人示例上演示了该方法的实用性。

Abstract

signal temporal logic (STL) is a powerful framework for describing the complex temporal and logical behaviour of the dynamical system. Several works propose a method to find a controller for the satisfaction of STL specification using →

signal temporal logic reinforcement learning funnel functions continuous state space robust satisfaction

发现论文，激发创造

信号时态逻辑神经预测控制

通过直接学习神经网络控制器以满足信号时间逻辑 (STL) 的要求，以确保长期机器人任务的安全性和满足时间规范的挑战。同时，采用备用策略以保证控制器故障时的安全性。该方法可以适应不同的初始条件和环境参数，并在复杂的 STL 规范任务中以 10 倍至 100 倍速度快于传统方法。

Sep, 2023

使用强化学习的基于 STL 的反馈控制器综合

研究利用时序逻辑生成奖励对深度强化学习进行实时控制，并在多项复杂连续控制基准测试中证实了新模型相较于现有模型更为合适。

Dec, 2022

Q-Learning 用于满足信号时序逻辑规范的稳健性

该论文提出了一种利用近似解决 STL 综合问题的方法，通过最大化已知的效果指标来学习未知随机动态系统的最优策略，在模拟中验证了该方法的有效性。

Sep, 2016

由时序逻辑信号规范引导的多智能体强化学习

本论文提出了一种新的基于 STL 模板的多智能体强化学习算法以指导奖励设计，实验证明相比没有 STL 指导的情况下，算法能够显著提高多智能体系统的性能和安全性。

Jun, 2023

基于时序逻辑奖励塑形的强化学习分布式控制

本文提出了一个基于计算框架的分布式控制策略合成方法，用于处理存在部分观测的异质机器人团队，旨在满足 Truncated Linear Temporal Logic（TLTL）规范，其方法将综合问题表述为一个随机博弈，并采用策略图方法为每个机器人寻找具有内存的控制策略，模拟结果表明其解决方案的有效性和奖励塑形的有效性。

Mar, 2022

具有时态逻辑奖励的强化学习

本文提出了 Truncated Linear Temporal Logic (TLTL) 以及与之相应的鲁棒性度量作为奖励函数的强化学习方法，用以解决机器人应用中复杂任务的学习问题。在仿真实验和 Baxter 机器人的任务中，表现出了优异的鲁棒性能。

Dec, 2016

强化学习用于具有概率满足保证的时间逻辑控制合成

本研究提出一种基于强化学习的控制策略综合算法，用于最大化满足作为线性时序逻辑公式给出的高级控制目标的概率。该算法将 LTL 规范转换为限制性确定布琦自动机，再与具有不确定工作空间特性、结构和智能体行为的 PL-MDP 合并进行训练，从而生成满足概率的最大值。

Sep, 2019

使用信号时间逻辑从自然语言和演示中进行交互式学习

该研究介绍了一种交互式学习方法，能够从自然语言描述中学习正确、简洁的统一信号时序逻辑公式，并使用深度 Q 学习算法确定机器人的最优控制策略。

Jul, 2022

学习 STL 任务的鲁棒性度量指标

本文旨在通过研究基于信号时间逻辑（STL）的控制问题的鲁棒度评估方法，从如何帮助基于学习的解决方案的角度探讨现有和潜在的鲁棒度评估方法。研究表明，这项新的鲁棒度测量方法对于加速学习过程非常有效，并通过实例研究进行了验证。

Mar, 2020

离线安全强化学习的时态逻辑条件决策变压器

我们提出了一种利用信号时态逻辑 (Signal Temporal Logic, STL) 指定复杂时态规则并使用决策变压器 (Decision Transformer, DT) 进行顺序建模的新框架，称为时态逻辑规范化决策变压器 (Specification-conditioned Decision Transformer, SDT)，在 DSRL 基准测试上的实证评估表明，与现有方法相比，SDT 学习安全且高奖励策略的能力更强，并且 SDT 在满足不同 STL 规范要求的程度方面表现良好。

Feb, 2024