强化学习中的时态逻辑公式转移

IJCAISep, 2019

Transfer of Temporal Logic Formulas in Reinforcement Learning

Zhe Xu, Ufuk Topcu

TL;DR本文研究如何将逻辑知识从源任务迁移至时间任务中，并通过提出的传递学习方法对两个不同但相似时间任务之间的知识进行传递，取得了在扩展状态下执行强化学习时效率提高两个数量级的显著结果。

Abstract

Transferring high-level knowledge from a source task to a target task is an effective way to expedite reinforcement learning (RL). For example, propositional logic and first-order logic have been used as representations of such knowledge. We study the transfer of knowledge between task

transfer learning temporal tasks metric interval temporal logic timed automaton reinforcement learning

发现论文，激发创造

具有时态逻辑奖励的强化学习

本文提出了 Truncated Linear Temporal Logic (TLTL) 以及与之相应的鲁棒性度量作为奖励函数的强化学习方法，用以解决机器人应用中复杂任务的学习问题。在仿真实验和 Baxter 机器人的任务中，表现出了优异的鲁棒性能。

Dec, 2016

利用 Transformer 实现强化学习中的可解释时间逻辑运动规划

通过将 Transformer 模块与强化学习相结合，开发了一个基于二次 Transformer 引导的时间逻辑框架（T2TL），以学习并执行各种自适应控制任务。其采用的 LTL 指令通过 co-safe LTL 指定，可以将复杂任务分解为可学习的子目标，从而将非马尔可夫奖励决策过程转换为马尔可夫过程，并通过同时学习多个子任务来提高采样效率。

Sep, 2022

可解释的时序逻辑学徒学习

本文讨论了在 Markov 决策过程中，使用 LTL 的公式作为代理规划的规范，通过形成多目标优化问题，从 MDP 中演示的行为轨迹中推断 LTL 规范，利用遗传编程解决该问题的有效性进行了证明。

Oct, 2017

强化学习中表征转移的可证明收益

本研究探讨了强化学习中的表征传递问题，提出了一种基于预训练和生成访问的新方法，可以帮助在源任务中发现一个共享表征来快速收敛到一个接近最优策略的目标任务中。

May, 2022

基于时间逻辑因果图的强化学习

论文提出了一种基于时序逻辑的因果图 RL 算法，通过识别环境中代理可以确定预期奖励的配置来减少探索，实现更快的收敛。

Jun, 2023

信号时态逻辑导引的学徒学习

通过将描述高层任务目标的时间逻辑规范编码为图形来定义基于时间的度量，以改进推断奖励和策略的质量，实验表明我们的框架通过极大地提高学习控制策略所需的演示数量，克服了之前文献的缺点。

Nov, 2023

基于时序逻辑奖励塑形的强化学习分布式控制

本文提出了一个基于计算框架的分布式控制策略合成方法，用于处理存在部分观测的异质机器人团队，旨在满足 Truncated Linear Temporal Logic（TLTL）规范，其方法将综合问题表述为一个随机博弈，并采用策略图方法为每个机器人寻找具有内存的控制策略，模拟结果表明其解决方案的有效性和奖励塑形的有效性。

Mar, 2022

逻辑规范引导的强化学习智能体的动态任务采样

基于逻辑规范引导的动态任务采样（LSTS）是一个新颖的方法，不像以前的方法，LSTS 不需要关于环境动态或奖励机器的信息，并且通过动态采样有希望导致成功目标策略的任务，来引导代理从初始状态到目标状态。在格局世界的评估中，LSTS 在复杂的顺序决策问题上表现出了比最先进的 RM 和自动机引导的 RL 基线更好的时间到达阈值性能，并且在部分可观测的机器人任务和连续控制机器人操纵任务中也比 RM 和自动机引导的 RL 基线表现出更高的样本效率。

Feb, 2024

通过任务时间逻辑和深度强化学习实现系统化概括

介绍了一种将深度强化学习与时间逻辑相结合的神经符号代理，以实现形式化规定指令的系统性零射 (就是指未曾见过的情况)。研究证明，卷积层的架构在泛化新指令时发挥了关键作用，并证明通过学习少量训练样例，可以从抽象操作符中实现系统化的学习。

Jun, 2020

强化学习用于具有概率满足保证的时间逻辑控制合成

本研究提出一种基于强化学习的控制策略综合算法，用于最大化满足作为线性时序逻辑公式给出的高级控制目标的概率。该算法将 LTL 规范转换为限制性确定布琦自动机，再与具有不确定工作空间特性、结构和智能体行为的 PL-MDP 合并进行训练，从而生成满足概率的最大值。

Sep, 2019