生成强化学习策略解释的实证研究

Sep, 2023

生成强化学习策略解释的实证研究

On Generating Explanations for Reinforcement Learning Policies: An Empirical Study

Mikihisa Yuasa, Huy T. Tran, Ramavarapu S. Sreenivas

TL;DR本文介绍了一组用于政策解释的线性时态逻辑公式，重点是通过这些公式解释政策所实现的最终目标和执行过程中的先决条件。这些基于线性时态逻辑的解释具有结构化表示，特别适用于局部搜索技术。通过模拟夺旗环境显示了我们提出的方法的有效性。最后，提出了未来研究的方向。

Abstract

In this paper, we introduce a set of \textit{linear temporal logic} (LTL) formulae designed to provide explanations for policies. Our focu

linear temporal logic explanations policies structured representation future research

发现论文，激发创造

深度策略优化与时序逻辑约束

我们的研究通过将任务规范为线性时间逻辑（LTL）目标并优化额外的标量奖励，提出了一种增强学习代理的任务说明方法。我们的方法将问题转化为单一优化目标，并通过引入 Cycle Experience Replay（CyclER）解决了 LTL 引导的深度增强学习政策的稀疏性问题。实验证明了 CyclER 在连续和离散实验领域中发现性能优越的深度增强学习政策的有效性。

Apr, 2024

一种基于策略搜索的时间逻辑指定强化学习任务方法

本文提出了一种基于时间逻辑规范的强化学习策略搜索方法，通过将时间逻辑公式转化为实值函数，来指导策略搜索过程，从而避免手动调整奖励函数的繁琐操作。

Sep, 2017

最终折扣时序逻辑反事实经验重播

通过使用可期折扣技术的价值函数代理来找到最大概率满足 LTL 规范的策略，以及通过对不同满足 LTL 规范的方法进行反事实推理来生成脱离政策的数据的新体验重演方法，该论文在离散和连续状态操作空间中进行的实验证实了反事实经验回放方法的有效性。

Mar, 2023

具有时态逻辑奖励的强化学习

本文提出了 Truncated Linear Temporal Logic (TLTL) 以及与之相应的鲁棒性度量作为奖励函数的强化学习方法，用以解决机器人应用中复杂任务的学习问题。在仿真实验和 Baxter 机器人的任务中，表现出了优异的鲁棒性能。

Dec, 2016

从演示中学习 LTL 规范的解释整合

该研究探讨了最新的大型语言模型（LLMs）是否能够帮助将人类解释转化为能够支持从演示中稳定学习线性时间逻辑（LTL）的格式。我们提出了一种将 LLMs 和基于优化的方法结合的方法，用于忠实地将人类解释和演示转化为 LTL 规范。通过几个案例研究，我们的实验证明了将解释与演示相结合在学习 LTL 规范方面的有效性。

Apr, 2024

线性时态逻辑约束下的策略优化

本文研究了带线性时间逻辑约束的策略优化问题。通过使用生成模型和 LTL 语言，提出了一种基于模型的方法，用于在低样本数据情形下保证任务满足和成本最优的算法。

Jun, 2022

基于折扣线性时态逻辑的政策综合和强化学习

通过降低时间折扣，将 LTL 适用于 RL 并在 Markov 决策过程中综合策略，以解决小扰动敏感性问题。

May, 2023

基于 LTL 规约的样本高效无模型强化学习及最优性保证

本研究提出一种基于强化学习的模型自由优化方法来学习行为策略，以最大化符合给定线性时态逻辑规范的概率。通过采用新型的产品 MDP、奖励结构和折扣机制，在各种 MDP 环境中进行实验，证明了其具有改进的样本效率和最优策略收敛性。

May, 2023

线性时态逻辑规则的基于点的时间解释

这项工作介绍了一种在给定路径规划中评估单个线性时间逻辑（LTL）约束在特定时间的相关性的框架，这是一项我们称之为 “点时解释” 的任务。

Jun, 2023

可解释的时序逻辑学徒学习

本文讨论了在 Markov 决策过程中，使用 LTL 的公式作为代理规划的规范，通过形成多目标优化问题，从 MDP 中演示的行为轨迹中推断 LTL 规范，利用遗传编程解决该问题的有效性进行了证明。

Oct, 2017