带时间窗的概率时空约束下的强化学习

Jul, 2023

带时间窗的概率时空约束下的强化学习

Reinforcement Learning Under Probabilistic Spatio-Temporal Constraints with Time Windows

Xiaoshan Lin, Abbasali Koochakzadeh, Yasin Yazicioglu, Derya Aksaray

TL;DR我们提出了一种基于自动机理论的强化学习方法，用于复杂时空约束下的限时学习。该方法通过将有界时态逻辑约束转化为总自动机，并基于已知的转移概率上下界避免 “不安全” 动作，从而在学习过程中强制满足约束条件的概率达到预期值。

Abstract

We propose an automata-theoretic approach for reinforcement learning (RL) under complex spatio-temporal constraints with time windows. The

automata-theoretic approach reinforcement learning spatio-temporal constraints bounded temporal logic constraint constraint satisfaction

发现论文，激发创造

强化学习用于具有概率满足保证的时间逻辑控制合成

本研究提出一种基于强化学习的控制策略综合算法，用于最大化满足作为线性时序逻辑公式给出的高级控制目标的概率。该算法将 LTL 规范转换为限制性确定布琦自动机，再与具有不确定工作空间特性、结构和智能体行为的 PL-MDP 合并进行训练，从而生成满足概率的最大值。

Sep, 2019

具有未知时间约束的安全强化学习策略联合学习

提出了一种结合逻辑约束强化学习算法和进化算法的框架，用于在不确定或未明确定义安全约束的环境中并发地学习安全约束和最优 RL 策略，并且该框架以理论保证为支撑，成功地在 grid-world 环境中识别出可接受的安全约束和 RL 策略，以及证明了我们的方法的实践效果。

Apr, 2023

强化学习用于带有动作约束的任务规定

本文运用离散事件系统监控控制理论的概念，提出一种方法用于在有限状态的马尔可夫决策过程中，学习最优控制策略，并利用奖励机器的发展来处理状态限制。通过给定一个例子来阐明其应用性并在此设置中展示了仿真结果。

Jan, 2022

基于时序逻辑奖励塑形的强化学习分布式控制

本文提出了一个基于计算框架的分布式控制策略合成方法，用于处理存在部分观测的异质机器人团队，旨在满足 Truncated Linear Temporal Logic（TLTL）规范，其方法将综合问题表述为一个随机博弈，并采用策略图方法为每个机器人寻找具有内存的控制策略，模拟结果表明其解决方案的有效性和奖励塑形的有效性。

Mar, 2022

逻辑约束部分可观测多智能体马尔科夫决策过程的最优控制

本文讲述了一种基于特定约束的自主系统与多智能体的优化控制方法，以实现其最大化收益并同时满足时间逻辑约束的概率足够高。

May, 2023

逻辑约束强化学习

本篇研究提出了第一种基于无模型的强化学习算法，用于综合一个未知的马尔可夫决策过程，并满足线性时间性质的要求。我们还展示了这个算法的性能通过一组数值实例进行了评估，并发现所提出的算法相比现有方法在合成所需的迭代次数方面有一个数量级的改进。

Jan, 2018

在时间逻辑约束下的大致近似正确的 MDP 学习与控制

此篇论文探讨了在未知、随机环境中，通过建立模型、构造符合某些临时逻辑规则要求的 MDP，并通过 PAC-MDP 的方法，利用数据、空间和时间进行迭代更新，得到了一个在一定条件下接近最优的策略，从而达到在给定规则下最大化概率的目的。

Apr, 2014

不确定环境下带概率满足保证的 LTL 控制

本文提出了一种使用线性时态逻辑公式生成机器人控制策略的方法，重点考虑了噪声传感器和执行器带来的影响，将其转换为马尔可夫决策过程来解决，包括案例分析。

Apr, 2011

具有时态逻辑奖励的强化学习

本文提出了 Truncated Linear Temporal Logic (TLTL) 以及与之相应的鲁棒性度量作为奖励函数的强化学习方法，用以解决机器人应用中复杂任务的学习问题。在仿真实验和 Baxter 机器人的任务中，表现出了优异的鲁棒性能。

Dec, 2016

具有随机停止时间的约束马尔可夫决策过程的安全增强学习

我们提出了一种基于在线强化学习算法的约束马尔可夫决策过程，其中包含一个安全约束。通过线性规划算法，我们演示了学习到的策略在很高的置信度下是安全的。我们还提出了计算安全基准策略的方法，并演示了该算法的有效性。同时，我们通过定义状态空间的子集，称为代理集，实现了高效的探索。

Mar, 2024