时间逻辑模仿：从演示中学习满足规划的动作策略

Jun, 2022

时间逻辑模仿：从演示中学习满足规划的动作策略

Temporal Logic Imitation: Learning Plan-Satisficing Motion Policies from Demonstrations

Yanwei Wang, Nadia Figueroa, Shen Li, Ankit Shah, Julie Shah

TL;DR本文提出使用状态与运动的离散抽象方法，通过连续策略学习，基于线性时间逻辑公式以确保当前任务在无论是任务层面还是运动层面的干扰下都能顺利完成。

Abstract

learning from demonstration (lfd) has succeeded in tasks featuring a long time horizon. However, when the problem complexity also includes human-in-the-loop →

learning from demonstration lfd continuous policy linear temporal logic perturbations

发现论文，激发创造

可解释的时序逻辑学徒学习

本文讨论了在 Markov 决策过程中，使用 LTL 的公式作为代理规划的规范，通过形成多目标优化问题，从 MDP 中演示的行为轨迹中推断 LTL 规范，利用遗传编程解决该问题的有效性进行了证明。

Oct, 2017

学习违反最小的连续控制以满足不可行的线性时间逻辑规范

本文研究了基于深度强化学习的模型无关框架来解决复杂高级任务下的连续时间控制综合问题，并提出了一种基于采样路径规划算法来满足要求的方案，旨在降低深度强化学习在解决长期任务时的局限性和探索复杂环境问题

Oct, 2022

面向任务驱动的探索，加速具有时态逻辑任务规范的深度强化学习

通过自动机表示 LTL 任务以及部分模拟未知系统动力学的神经网络，我们提出了一种新颖的深度强化学习（DRL）算法，其样本效率得以提高，能够更快速地学习控制策略，以在未知环境中的机器人导航任务中提高效率。

Nov, 2023

基于 LTL 规约的样本高效无模型强化学习及最优性保证

本研究提出一种基于强化学习的模型自由优化方法来学习行为策略，以最大化符合给定线性时态逻辑规范的概率。通过采用新型的产品 MDP、奖励结构和折扣机制，在各种 MDP 环境中进行实验，证明了其具有改进的样本效率和最优策略收敛性。

May, 2023

通过逆事实扰动将语言计划与演示相结合的基础

利用大型语言模型对物理领域中的常识推理进行基础性指导和解决工作，通过任务结构和约束的搜索，使用人类示范和模拟干扰生成覆盖训练数据集，并通过解释性学习方法来提高模仿学习的可解释性和反应性。

Mar, 2024

深度策略优化与时序逻辑约束

我们的研究通过将任务规范为线性时间逻辑（LTL）目标并优化额外的标量奖励，提出了一种增强学习代理的任务说明方法。我们的方法将问题转化为单一优化目标，并通过引入 Cycle Experience Replay（CyclER）解决了 LTL 引导的深度增强学习政策的稀疏性问题。实验证明了 CyclER 在连续和离散实验领域中发现性能优越的深度增强学习政策的有效性。

Apr, 2024

最终折扣时序逻辑反事实经验重播

通过使用可期折扣技术的价值函数代理来找到最大概率满足 LTL 规范的策略，以及通过对不同满足 LTL 规范的方法进行反事实推理来生成脱离政策的数据的新体验重演方法，该论文在离散和连续状态操作空间中进行的实验证实了反事实经验回放方法的有效性。

Mar, 2023

生成强化学习策略解释的实证研究

本文介绍了一组用于政策解释的线性时态逻辑公式，重点是通过这些公式解释政策所实现的最终目标和执行过程中的先决条件。这些基于线性时态逻辑的解释具有结构化表示，特别适用于局部搜索技术。通过模拟夺旗环境显示了我们提出的方法的有效性。最后，提出了未来研究的方向。

Sep, 2023

使用无模型强化学习从线性时态逻辑规范合成控制

本文提出了一种强化学习框架，以从在一个未知的随机环境中，根据给定的线性时间逻辑（LTL）规范合成控制策略，该环境可以被建模为一个马尔可夫决策过程（MDP）。我们学习一种策略，最大化满足 LTL 公式的概率，引入一种新的、基于 LTL 公式的奖励和路径相关的折扣机制，使得（i）最优策略有效地最大化了满足 LTL 目标的概率，（ii）使用这些奖励和折扣因子的无模型强化学习算法保证收敛到这样的策略。最后，我们在两个运动规划案例研究中展示了我们基于强化学习的合成方法的适用性。

Sep, 2019

信号时态逻辑导引的学徒学习

通过将描述高层任务目标的时间逻辑规范编码为图形来定义基于时间的度量，以改进推断奖励和策略的质量，实验表明我们的框架通过极大地提高学习控制策略所需的演示数量，克服了之前文献的缺点。

Nov, 2023