通过未来依赖选项推广 LTL 指令

Dec, 2022

Generalizing LTL Instructions via Future Dependent Options

Duo Xu, Faramarz Fekri

TL;DR本文提出了一种新的多任务 RL 算法，通过离线策略学习选项来实现任务完成的全局最优性，并通过训练基于子目标序列的多步价值函数来更有效地传递满足未来子目标的奖励，从而解决了在 RL 中学习 LTL 任务代价函数时的一些问题。实验结果表明，该方法在 LTL 广义化方面具有优势。

Abstract

In many real-world applications of control system and robotics, linear temporal logic (LTL) is a widely-used task specification language which has a compositional grammar that naturally induces temporally extended behaviours across tasks, including conditionals and alternative realizat

linear temporal logic rl task specification language multi-task rl algorithm optimality

发现论文，激发创造

LTL2Action：将 LTL 指令泛化到多任务 RL 中

本论文研究了在多任务环境下，通过使用线性时间逻辑（LTL），结合深度强化学习（RL）实现对代理人进行指令跟随的教学。为了提高效率，论文提出了一种与特定环境无关的 LTL 预训练方案，并在离散及连续领域实验中展示了该方法的优越性。

Feb, 2021

不确定环境下带概率满足保证的 LTL 控制

本文提出了一种使用线性时态逻辑公式生成机器人控制策略的方法，重点考虑了噪声传感器和执行器带来的影响，将其转换为马尔可夫决策过程来解决，包括案例分析。

Apr, 2011

最终折扣时序逻辑反事实经验重播

通过使用可期折扣技术的价值函数代理来找到最大概率满足 LTL 规范的策略，以及通过对不同满足 LTL 规范的方法进行反事实推理来生成脱离政策的数据的新体验重演方法，该论文在离散和连续状态操作空间中进行的实验证实了反事实经验回放方法的有效性。

Mar, 2023

深度策略优化与时序逻辑约束

我们的研究通过将任务规范为线性时间逻辑（LTL）目标并优化额外的标量奖励，提出了一种增强学习代理的任务说明方法。我们的方法将问题转化为单一优化目标，并通过引入 Cycle Experience Replay（CyclER）解决了 LTL 引导的深度增强学习政策的稀疏性问题。实验证明了 CyclER 在连续和离散实验领域中发现性能优越的深度增强学习政策的有效性。

Apr, 2024

基于 LTL 规约的样本高效无模型强化学习及最优性保证

本研究提出一种基于强化学习的模型自由优化方法来学习行为策略，以最大化符合给定线性时态逻辑规范的概率。通过采用新型的产品 MDP、奖励结构和折扣机制，在各种 MDP 环境中进行实验，证明了其具有改进的样本效率和最优策略收敛性。

May, 2023

面向任务驱动的探索，加速具有时态逻辑任务规范的深度强化学习

通过自动机表示 LTL 任务以及部分模拟未知系统动力学的神经网络，我们提出了一种新颖的深度强化学习（DRL）算法，其样本效率得以提高，能够更快速地学习控制策略，以在未知环境中的机器人导航任务中提高效率。

Nov, 2023

可解释的时序逻辑学徒学习

本文讨论了在 Markov 决策过程中，使用 LTL 的公式作为代理规划的规范，通过形成多目标优化问题，从 MDP 中演示的行为轨迹中推断 LTL 规范，利用遗传编程解决该问题的有效性进行了证明。

Oct, 2017

通过 GLTL 实现的环境无关任务规格

提出了一种新的用于马尔可夫决策过程的任务规范语言，其设计旨在改进奖励函数，成为独立于环境的语言。该语言是 LTL 的一种变体，被扩展为概率规范，可以在有限时间内学习逼近。提供了几个小环境，展示了我们的几何 LTL 语言的优势，说明了它如何简单地用于规范标准强化学习任务。

Apr, 2017

线性时态逻辑约束下的策略优化

本文研究了带线性时间逻辑约束的策略优化问题。通过使用生成模型和 LTL 语言，提出了一种基于模型的方法，用于在低样本数据情形下保证任务满足和成本最优的算法。

Jun, 2022

学习违反最小的连续控制以满足不可行的线性时间逻辑规范

本文研究了基于深度强化学习的模型无关框架来解决复杂高级任务下的连续时间控制综合问题，并提出了一种基于采样路径规划算法来满足要求的方案，旨在降低深度强化学习在解决长期任务时的局限性和探索复杂环境问题

Oct, 2022