利用 Transformer 实现强化学习中的可解释时间逻辑运动规划

Sep, 2022

利用 Transformer 实现强化学习中的可解释时间逻辑运动规划

Exploiting Transformer in Reinforcement Learning for Interpretable Temporal Logic Motion Planning

Hao Zhang, Hao Wang, Zhen Kan

TL;DR通过将 Transformer 模块与强化学习相结合，开发了一个基于二次 Transformer 引导的时间逻辑框架（T2TL），以学习并执行各种自适应控制任务。其采用的 LTL 指令通过 co-safe LTL 指定，可以将复杂任务分解为可学习的子目标，从而将非马尔可夫奖励决策过程转换为马尔可夫过程，并通过同时学习多个子任务来提高采样效率。

Abstract

automaton based approaches have enabled robots to perform various complex tasks. However, most existing automaton based algorithms highly rely on the manually customized representation of states for the considere

automaton transformer temporal logic reinforcement learning sub-goals

发现论文，激发创造

面向任务驱动的探索，加速具有时态逻辑任务规范的深度强化学习

通过自动机表示 LTL 任务以及部分模拟未知系统动力学的神经网络，我们提出了一种新颖的深度强化学习（DRL）算法，其样本效率得以提高，能够更快速地学习控制策略，以在未知环境中的机器人导航任务中提高效率。

Nov, 2023

具有时态逻辑奖励的强化学习

本文提出了 Truncated Linear Temporal Logic (TLTL) 以及与之相应的鲁棒性度量作为奖励函数的强化学习方法，用以解决机器人应用中复杂任务的学习问题。在仿真实验和 Baxter 机器人的任务中，表现出了优异的鲁棒性能。

Dec, 2016

机器人任务规范的自然语言到线性时间逻辑翻译器的高效数据学习

本文提出一种基于学习的方法，通过算法生成 LTL 公式，并将其转换为结构化英语进而利用现代大型语言模型的改写功能来合成自然语言命令，从而减少人工数据依赖，以 75％的准确率将自然语言命令翻译成 LTL 规范，并发现该翻译的公式能够用于长视距的，多阶段任务的规划（以 12D 四旋翼为例）。

Mar, 2023

LTL2Action：将 LTL 指令泛化到多任务 RL 中

本论文研究了在多任务环境下，通过使用线性时间逻辑（LTL），结合深度强化学习（RL）实现对代理人进行指令跟随的教学。为了提高效率，论文提出了一种与特定环境无关的 LTL 预训练方案，并在离散及连续领域实验中展示了该方法的优越性。

Feb, 2021

教授神经网络时间逻辑

本文探讨了神经符号计算中的两个基本问题：深度学习是否能够端到端地解决逻辑中的挑战性问题，以及神经网络是否能够学习逻辑的语义。研究重点是线性时间暂态逻辑（LTL），通过训练 Transformer 来直接预测给定 LTL 公式的解，使用传统求解器产生的经典解决方案生成训练数据，研究表明，使用这些特定的解决方案进行训练已足够。 Transformers 甚至可以预测在文献基准测试中，经典求解器超时的公式的解，它也可以推广到逻辑的语义，虽然与经典求解器找到的解有所不同，但仍可以正确地预测大多数公式的解。

Mar, 2020

深度策略优化与时序逻辑约束

我们的研究通过将任务规范为线性时间逻辑（LTL）目标并优化额外的标量奖励，提出了一种增强学习代理的任务说明方法。我们的方法将问题转化为单一优化目标，并通过引入 Cycle Experience Replay（CyclER）解决了 LTL 引导的深度增强学习政策的稀疏性问题。实验证明了 CyclER 在连续和离散实验领域中发现性能优越的深度增强学习政策的有效性。

Apr, 2024

基于时序逻辑奖励塑形的强化学习分布式控制

本文提出了一个基于计算框架的分布式控制策略合成方法，用于处理存在部分观测的异质机器人团队，旨在满足 Truncated Linear Temporal Logic（TLTL）规范，其方法将综合问题表述为一个随机博弈，并采用策略图方法为每个机器人寻找具有内存的控制策略，模拟结果表明其解决方案的有效性和奖励塑形的有效性。

Mar, 2022

强化学习中的时态逻辑公式转移

本文研究如何将逻辑知识从源任务迁移至时间任务中，并通过提出的传递学习方法对两个不同但相似时间任务之间的知识进行传递，取得了在扩展状态下执行强化学习时效率提高两个数量级的显著结果。

Sep, 2019

Lang2LTL：将自然语言命令转换为时间机器人任务规范

Lang2LTL 是一个基于大型语言模型的新型系统，能够提取自然语言指令中的相关表达并将其转化为机器人的任务规范，使任何机器人系统能够在无需额外训练的情况下解释自然语言导航命令并执行多步骤的导航任务，以 88.4% 的平均准确性在 22 个未见过的环境下进行翻译，并成功整合进一个计划工具，驱动四足移动机器人在实验室中执行多步导航任务。

Feb, 2023

可解释的时序逻辑学徒学习

本文讨论了在 Markov 决策过程中，使用 LTL 的公式作为代理规划的规范，通过形成多目标优化问题，从 MDP 中演示的行为轨迹中推断 LTL 规范，利用遗传编程解决该问题的有效性进行了证明。

Oct, 2017