离线安全强化学习的时态逻辑条件决策变压器

Feb, 2024

离线安全强化学习的时态逻辑条件决策变压器

Temporal Logic Specification-Conditioned Decision Transformer for Offline Safe Reinforcement Learning

Zijian Guo, Weichao Zhou, Wenchao Li

TL;DR我们提出了一种利用信号时态逻辑 (Signal Temporal Logic, STL) 指定复杂时态规则并使用决策变压器 (Decision Transformer, DT) 进行顺序建模的新框架，称为时态逻辑规范化决策变压器 (Specification-conditioned Decision Transformer, SDT)，在 DSRL 基准测试上的实证评估表明，与现有方法相比，SDT 学习安全且高奖励策略的能力更强，并且 SDT 在满足不同 STL 规范要求的程度方面表现良好。

Abstract

offline safe reinforcement learning (RL) aims to train a constraint satisfaction policy from a fixed dataset. Current state-of-the-art approaches are based on supervised learning with a conditioned policy. However, these approaches fall short in real-world applications that involve com

offline safe reinforcement learning constraint satisfaction policy temporal logic signal temporal logic decision transformer

发现论文，激发创造

离线安全强化学习的约束决策 Transformer

该论文研究了如何从离线数据集中学习到一个安全政策，提出了一种多目标优化的方法，并通过 “ε- 可减” 向量量化了问题难度，发现在安全性和任务性能之间存在平衡，于是提出了一种 “受限决策 Transformer” 方法并进行了实验，结果表明我们的方法比其他方法在各种任务中都表现出更好更安全和更高的效益。

Feb, 2023

信号时态逻辑神经预测控制

通过直接学习神经网络控制器以满足信号时间逻辑 (STL) 的要求，以确保长期机器人任务的安全性和满足时间规范的挑战。同时，采用备用策略以保证控制器故障时的安全性。该方法可以适应不同的初始条件和环境参数，并在复杂的 STL 规范任务中以 10 倍至 100 倍速度快于传统方法。

Sep, 2023

由时序逻辑信号规范引导的多智能体强化学习

本论文提出了一种新的基于 STL 模板的多智能体强化学习算法以指导奖励设计，实验证明相比没有 STL 指导的情况下，算法能够显著提高多智能体系统的性能和安全性。

Jun, 2023

使用强化学习的基于 STL 的反馈控制器综合

研究利用时序逻辑生成奖励对深度强化学习进行实时控制，并在多项复杂连续控制基准测试中证实了新模型相较于现有模型更为合适。

Dec, 2022

强化学习用于具有概率满足保证的时间逻辑控制合成

本研究提出一种基于强化学习的控制策略综合算法，用于最大化满足作为线性时序逻辑公式给出的高级控制目标的概率。该算法将 LTL 规范转换为限制性确定布琦自动机，再与具有不确定工作空间特性、结构和智能体行为的 PL-MDP 合并进行训练，从而生成满足概率的最大值。

Sep, 2019

面向任务驱动的探索，加速具有时态逻辑任务规范的深度强化学习

通过自动机表示 LTL 任务以及部分模拟未知系统动力学的神经网络，我们提出了一种新颖的深度强化学习（DRL）算法，其样本效率得以提高，能够更快速地学习控制策略，以在未知环境中的机器人导航任务中提高效率。

Nov, 2023

基于时序逻辑奖励塑形的强化学习分布式控制

本文提出了一个基于计算框架的分布式控制策略合成方法，用于处理存在部分观测的异质机器人团队，旨在满足 Truncated Linear Temporal Logic（TLTL）规范，其方法将综合问题表述为一个随机博弈，并采用策略图方法为每个机器人寻找具有内存的控制策略，模拟结果表明其解决方案的有效性和奖励塑形的有效性。

Mar, 2022

具有未知时间约束的安全强化学习策略联合学习

提出了一种结合逻辑约束强化学习算法和进化算法的框架，用于在不确定或未明确定义安全约束的环境中并发地学习安全约束和最优 RL 策略，并且该框架以理论保证为支撑，成功地在 grid-world 环境中识别出可接受的安全约束和 RL 策略，以及证明了我们的方法的实践效果。

Apr, 2023

强化学习中策略和未知安全约束的并发学习

我们提出了一种新的方法，同时学习安全的强化学习控制策略并识别给定环境的未知的安全约束参数，通过使用参数化信号时态逻辑 (pSTL) 安全规范和小规模初始标记数据集，将问题作为双层优化任务，通过使用拉格朗日变体的双延迟深度确定性策略梯度 (TD3) 算法的约束策略优化，并结合贝叶斯优化来优化给定 pSTL 安全规范的参数。通过全面的案例研究实验证实了该方法在各种环境约束形式上的有效性，始终产生高回报的安全强化学习策略。此外，我们的研究结果表明成功学习了 STL 安全约束参数，与真实环境安全约束具有高度一致性。我们模型的表现与完全了解安全约束的理想情况非常相似，表明其能够准确识别环境安全约束并学习遵守这些约束的安全策略。

Feb, 2024

逻辑规范引导的强化学习智能体的动态任务采样

基于逻辑规范引导的动态任务采样（LSTS）是一个新颖的方法，不像以前的方法，LSTS 不需要关于环境动态或奖励机器的信息，并且通过动态采样有希望导致成功目标策略的任务，来引导代理从初始状态到目标状态。在格局世界的评估中，LSTS 在复杂的顺序决策问题上表现出了比最先进的 RM 和自动机引导的 RL 基线更好的时间到达阈值性能，并且在部分可观测的机器人任务和连续控制机器人操纵任务中也比 RM 和自动机引导的 RL 基线表现出更高的样本效率。

Feb, 2024