面向任务驱动的探索，加速具有时态逻辑任务规范的深度强化学习

Nov, 2023

面向任务驱动的探索，加速具有时态逻辑任务规范的深度强化学习

Mission-driven Exploration for Accelerated Deep Reinforcement Learning with Temporal Logic Task Specifications

Jun Wang, Hosein Hasanbeig, Kaiyuan Tan, Zihe Sun, Yiannis Kantaros

TL;DR通过自动机表示 LTL 任务以及部分模拟未知系统动力学的神经网络，我们提出了一种新颖的深度强化学习（DRL）算法，其样本效率得以提高，能够更快速地学习控制策略，以在未知环境中的机器人导航任务中提高效率。

Abstract

This paper addresses the problem of designing optimal control policies for mobile robots with mission and safety requirements specified using Linear Temporal Logic (LTL). We consider robots with unknown stochastic dynamics operating in environments with unknown geometric structure. The

optimal control policies linear temporal logic (ltl)deep reinforcement learning (drl)mission-driven exploration strategy robot navigation

发现论文，激发创造

深度策略优化与时序逻辑约束

我们的研究通过将任务规范为线性时间逻辑（LTL）目标并优化额外的标量奖励，提出了一种增强学习代理的任务说明方法。我们的方法将问题转化为单一优化目标，并通过引入 Cycle Experience Replay（CyclER）解决了 LTL 引导的深度增强学习政策的稀疏性问题。实验证明了 CyclER 在连续和离散实验领域中发现性能优越的深度增强学习政策的有效性。

Apr, 2024

学习违反最小的连续控制以满足不可行的线性时间逻辑规范

本文研究了基于深度强化学习的模型无关框架来解决复杂高级任务下的连续时间控制综合问题，并提出了一种基于采样路径规划算法来满足要求的方案，旨在降低深度强化学习在解决长期任务时的局限性和探索复杂环境问题

Oct, 2022

基于时序逻辑奖励塑形的强化学习分布式控制

本文提出了一个基于计算框架的分布式控制策略合成方法，用于处理存在部分观测的异质机器人团队，旨在满足 Truncated Linear Temporal Logic（TLTL）规范，其方法将综合问题表述为一个随机博弈，并采用策略图方法为每个机器人寻找具有内存的控制策略，模拟结果表明其解决方案的有效性和奖励塑形的有效性。

Mar, 2022

具有时态逻辑奖励的强化学习

本文提出了 Truncated Linear Temporal Logic (TLTL) 以及与之相应的鲁棒性度量作为奖励函数的强化学习方法，用以解决机器人应用中复杂任务的学习问题。在仿真实验和 Baxter 机器人的任务中，表现出了优异的鲁棒性能。

Dec, 2016

强化学习用于具有概率满足保证的时间逻辑控制合成

本研究提出一种基于强化学习的控制策略综合算法，用于最大化满足作为线性时序逻辑公式给出的高级控制目标的概率。该算法将 LTL 规范转换为限制性确定布琦自动机，再与具有不确定工作空间特性、结构和智能体行为的 PL-MDP 合并进行训练，从而生成满足概率的最大值。

Sep, 2019

使用无模型强化学习从线性时态逻辑规范合成控制

本文提出了一种强化学习框架，以从在一个未知的随机环境中，根据给定的线性时间逻辑（LTL）规范合成控制策略，该环境可以被建模为一个马尔可夫决策过程（MDP）。我们学习一种策略，最大化满足 LTL 公式的概率，引入一种新的、基于 LTL 公式的奖励和路径相关的折扣机制，使得（i）最优策略有效地最大化了满足 LTL 目标的概率，（ii）使用这些奖励和折扣因子的无模型强化学习算法保证收敛到这样的策略。最后，我们在两个运动规划案例研究中展示了我们基于强化学习的合成方法的适用性。

Sep, 2019

不确定环境下带概率满足保证的 LTL 控制

本文提出了一种使用线性时态逻辑公式生成机器人控制策略的方法，重点考虑了噪声传感器和执行器带来的影响，将其转换为马尔可夫决策过程来解决，包括案例分析。

Apr, 2011

逻辑规范引导的强化学习智能体的动态任务采样

基于逻辑规范引导的动态任务采样（LSTS）是一个新颖的方法，不像以前的方法，LSTS 不需要关于环境动态或奖励机器的信息，并且通过动态采样有希望导致成功目标策略的任务，来引导代理从初始状态到目标状态。在格局世界的评估中，LSTS 在复杂的顺序决策问题上表现出了比最先进的 RM 和自动机引导的 RL 基线更好的时间到达阈值性能，并且在部分可观测的机器人任务和连续控制机器人操纵任务中也比 RM 和自动机引导的 RL 基线表现出更高的样本效率。

Feb, 2024

利用 Transformer 实现强化学习中的可解释时间逻辑运动规划

通过将 Transformer 模块与强化学习相结合，开发了一个基于二次 Transformer 引导的时间逻辑框架（T2TL），以学习并执行各种自适应控制任务。其采用的 LTL 指令通过 co-safe LTL 指定，可以将复杂任务分解为可学习的子目标，从而将非马尔可夫奖励决策过程转换为马尔可夫过程，并通过同时学习多个子任务来提高采样效率。

Sep, 2022

在具有挑战性的环境中，将神经网络和树搜索结合用于任务和动作规划

利用深度神经网络和强化学习技术，结合蒙特卡罗方法和分层控制策略，解决了复杂动态环境下行车规划的问题，提出了一种用于道路自动驾驶的方案。该方案使用 LTL 约束条件和控制策略，训练神经网络，在规避交通事故、遵守交通规则的前提下，行驶到指定的终点。

Mar, 2017