LTL2Action：将 LTL 指令泛化到多任务 RL 中

ICMLFeb, 2021

LTL2Action：将 LTL 指令泛化到多任务 RL 中

LTL2Action: Generalizing LTL Instructions for Multi-Task RL

Pashootan Vaezipoor, Andrew Li, Rodrigo Toro Icarte, Sheila McIlraith

TL;DR本论文研究了在多任务环境下，通过使用线性时间逻辑（LTL），结合深度强化学习（RL）实现对代理人进行指令跟随的教学。为了提高效率，论文提出了一种与特定环境无关的 LTL 预训练方案，并在离散及连续领域实验中展示了该方法的优越性。

Abstract

We address the problem of teaching a deep reinforcement learning (RL) agent to follow instructions in multi-task environments. Instructions are expressed in a well-known formal language -- →

deep reinforcement learning linear temporal logic compositional syntax multi-task environments sample-efficiency

发现论文，激发创造

通过未来依赖选项推广 LTL 指令

本文提出了一种新的多任务 RL 算法，通过离线策略学习选项来实现任务完成的全局最优性，并通过训练基于子目标序列的多步价值函数来更有效地传递满足未来子目标的奖励，从而解决了在 RL 中学习 LTL 任务代价函数时的一些问题。实验结果表明，该方法在 LTL 广义化方面具有优势。

Dec, 2022

文本游戏中的指令跟随学习

研究文本游戏在强化学习环境下的指令正确率，设计使用 Linear Temporal Logic 结构化语言支持时间上下文语义的指令，通过文字游戏的实验验证该结构化语言指令的有效性和优越性。

Nov, 2022

深度策略优化与时序逻辑约束

我们的研究通过将任务规范为线性时间逻辑（LTL）目标并优化额外的标量奖励，提出了一种增强学习代理的任务说明方法。我们的方法将问题转化为单一优化目标，并通过引入 Cycle Experience Replay（CyclER）解决了 LTL 引导的深度增强学习政策的稀疏性问题。实验证明了 CyclER 在连续和离散实验领域中发现性能优越的深度增强学习政策的有效性。

Apr, 2024

利用 Transformer 实现强化学习中的可解释时间逻辑运动规划

通过将 Transformer 模块与强化学习相结合，开发了一个基于二次 Transformer 引导的时间逻辑框架（T2TL），以学习并执行各种自适应控制任务。其采用的 LTL 指令通过 co-safe LTL 指定，可以将复杂任务分解为可学习的子目标，从而将非马尔可夫奖励决策过程转换为马尔可夫过程，并通过同时学习多个子任务来提高采样效率。

Sep, 2022

机器人任务规范的自然语言到线性时间逻辑翻译器的高效数据学习

本文提出一种基于学习的方法，通过算法生成 LTL 公式，并将其转换为结构化英语进而利用现代大型语言模型的改写功能来合成自然语言命令，从而减少人工数据依赖，以 75％的准确率将自然语言命令翻译成 LTL 规范，并发现该翻译的公式能够用于长视距的，多阶段任务的规划（以 12D 四旋翼为例）。

Mar, 2023

将公式编码为深度网络：强化学习用于零摆脱地执行 LTL 公式

该论文介绍了一种使用组合递归神经网络、输入为 LTL 公式的强化学习智能体，能够确定满足的行动，并且表现出了零 - shot 泛化的能力，它可以操作不同的任务而无需重新培训。

Jun, 2020

可解释的时序逻辑学徒学习

本文讨论了在 Markov 决策过程中，使用 LTL 的公式作为代理规划的规范，通过形成多目标优化问题，从 MDP 中演示的行为轨迹中推断 LTL 规范，利用遗传编程解决该问题的有效性进行了证明。

Oct, 2017

面向任务驱动的探索，加速具有时态逻辑任务规范的深度强化学习

通过自动机表示 LTL 任务以及部分模拟未知系统动力学的神经网络，我们提出了一种新颖的深度强化学习（DRL）算法，其样本效率得以提高，能够更快速地学习控制策略，以在未知环境中的机器人导航任务中提高效率。

Nov, 2023

基于 LTL 规约的样本高效无模型强化学习及最优性保证

本研究提出一种基于强化学习的模型自由优化方法来学习行为策略，以最大化符合给定线性时态逻辑规范的概率。通过采用新型的产品 MDP、奖励结构和折扣机制，在各种 MDP 环境中进行实验，证明了其具有改进的样本效率和最优策略收敛性。

May, 2023

通过 GLTL 实现的环境无关任务规格

提出了一种新的用于马尔可夫决策过程的任务规范语言，其设计旨在改进奖励函数，成为独立于环境的语言。该语言是 LTL 的一种变体，被扩展为概率规范，可以在有限时间内学习逼近。提供了几个小环境，展示了我们的几何 LTL 语言的优势，说明了它如何简单地用于规范标准强化学习任务。

Apr, 2017