通过 Dropout 扩展基于学习的政策优化算法以适用于时间相关任务

Mar, 2024

通过 Dropout 扩展基于学习的政策优化算法以适用于时间相关任务

Scaling Learning based Policy Optimization for Temporal Tasks via Dropout

Navid Hashemi, Bardh Hoxha, Danil Prokhorov, Georgios Fainekos, Jyotirmoy Deshmukh

TL;DR该论文介绍了一种基于模型的方法，用于针对高度非线性环境中的自主代理训练反馈控制器。我们希望该训练策略确保代理满足以离散时间信号时序逻辑（DT-STL）表达的特定任务目标。为了解决长时间跨度任务目标的问题，我们引入了一种基于随机梯度近似算法的梯度近似算法，并提出了适用于复杂规范的 DT-STL 的新的平滑语义。

Abstract

This paper introduces a model-based approach for training feedback controllers for an autonomous agent operating in a highly nonlinear environment. We desire the trained policy to ensure that the agent satisfies specific task objectives, expressed in discrete-time →

feedback controllers autonomous agent signal temporal logic recurrent neural networks gradient approximation algorithm

发现论文，激发创造

信号时态逻辑神经预测控制

通过直接学习神经网络控制器以满足信号时间逻辑 (STL) 的要求，以确保长期机器人任务的安全性和满足时间规范的挑战。同时，采用备用策略以保证控制器故障时的安全性。该方法可以适应不同的初始条件和环境参数，并在复杂的 STL 规范任务中以 10 倍至 100 倍速度快于传统方法。

Sep, 2023

使用强化学习的基于 STL 的反馈控制器综合

研究利用时序逻辑生成奖励对深度强化学习进行实时控制，并在多项复杂连续控制基准测试中证实了新模型相较于现有模型更为合适。

Dec, 2022

基于漏斗的信号时序逻辑强化学习

本文介绍一种基于 funnel functions 的可行强化学习算法，用于实现连续状态空间中 STL 规范的鲁棒满足，并在摆和移动机器人示例上演示了该方法的实用性。

Nov, 2022

Q-Learning 用于满足信号时序逻辑规范的稳健性

该论文提出了一种利用近似解决 STL 综合问题的方法，通过最大化已知的效果指标来学习未知随机动态系统的最优策略，在模拟中验证了该方法的有效性。

Sep, 2016

基于时序逻辑奖励塑形的强化学习分布式控制

本文提出了一个基于计算框架的分布式控制策略合成方法，用于处理存在部分观测的异质机器人团队，旨在满足 Truncated Linear Temporal Logic（TLTL）规范，其方法将综合问题表述为一个随机博弈，并采用策略图方法为每个机器人寻找具有内存的控制策略，模拟结果表明其解决方案的有效性和奖励塑形的有效性。

Mar, 2022

离线安全强化学习的时态逻辑条件决策变压器

我们提出了一种利用信号时态逻辑 (Signal Temporal Logic, STL) 指定复杂时态规则并使用决策变压器 (Decision Transformer, DT) 进行顺序建模的新框架，称为时态逻辑规范化决策变压器 (Specification-conditioned Decision Transformer, SDT)，在 DSRL 基准测试上的实证评估表明，与现有方法相比，SDT 学习安全且高奖励策略的能力更强，并且 SDT 在满足不同 STL 规范要求的程度方面表现良好。

Feb, 2024

面向任务驱动的探索，加速具有时态逻辑任务规范的深度强化学习

通过自动机表示 LTL 任务以及部分模拟未知系统动力学的神经网络，我们提出了一种新颖的深度强化学习（DRL）算法，其样本效率得以提高，能够更快速地学习控制策略，以在未知环境中的机器人导航任务中提高效率。

Nov, 2023

利用 BarrierNet 从信号时间逻辑规范中学习稳健且正确的控制器

这篇论文研究了学习神经网络控制器以满足信号时间逻辑（STL）规范的问题，提出了一种使用可训练高阶控制障碍函数的方法，结合 BarrierNet 进行控制的方案，并证明了该方法的鲁棒性优于现有算法。

Apr, 2023

学习神经控制器以实现时序逻辑目标的风险感知

本文提出了基于信号时间逻辑和控制障碍函数的神经网络控制器综合算法，以优化指定性能目标并满足硬性约束条件，在飞行器和单轮车等测试系统上进行了验证。

Oct, 2022

基于目标分布学习的连续控制策略搜索

本研究提出了新的强化学习方法 —— 目标分布学习 (TDL)，通过交替提出目标分布和训练策略网络来解决现有策略梯度方法可能出现过大梯度和训练不稳定的问题，实验发现这种方法能得到类似或更好的结果，并且更加稳定。

May, 2019