连续时间 MDP 的 Omega 正则规范的强化学习

Mar, 2023

连续时间 MDP 的 Omega 正则规范的强化学习

Reinforcement Learning for Omega-Regular Specifications on Continuous-Time MDP

Amin Falah, Shibashis Guha, Ashutosh Trivedi

TL;DR探究离散时间 Markov 决策过程的自动翻译问题，提出了一种能够实现正确翻译为标量奖励信号的算法。该算法适用于 omega 正则语言对时态较为严格的情况，并使用了最新的基于转义的自动翻译技术。

Abstract

continuous-time markov decision processes (CTMDPs) are canonical models to express sequential decision-making under dense-time and stochas

continuous-time markov decision processes reinforcement learning omega-regular languages dense-time sequential decision-making

发现论文，激发创造

无模型强化学习中的 Omega-Regular 目标

以非模式的方式提供了《ӏ–正则》监控下的最终快模满觉目标。

Sep, 2018

Ω 正则奖励机

通过将奖励机制与 ω- 正则语言相结合，本文介绍了 ω- 正则奖励机器，用于强化学习中的非马尔可夫奖励的表达，提出了一个模型无关的 RL 算法来计算针对 ω- 正则奖励机器的 epsilon - 最优策略，并通过实验证明了算法的有效性。

Aug, 2023

在 MDPs 中用于 LTL 和 ω-regular 目标的 PAC 学习算法

引入了一个基于模型的近似正确（PAC）学习算法，用于解决马尔可夫决策过程中的 omega 正则目标。不同于之前的方法，该算法从系统的采样轨迹中学习，不需要对系统拓扑的先验知识。

Oct, 2023

基于 LTL 规约的样本高效无模型强化学习及最优性保证

本研究提出一种基于强化学习的模型自由优化方法来学习行为策略，以最大化符合给定线性时态逻辑规范的概率。通过采用新型的产品 MDP、奖励结构和折扣机制，在各种 MDP 环境中进行实验，证明了其具有改进的样本效率和最优策略收敛性。

May, 2023

强化学习规范转换框架

提出了一个形式框架，为定义不同形式目标的 RL 任务之间的转换提供了形式化定义，研究了这种转换的保持最优策略、收敛和稳健性的概念，证明了从 LTL 规范到基于奖励的规范的某些缩减不存在，证明了 RL 算法不存在 PAC-MDP 保证安全规范。

Oct, 2021

利用强化学习处理非累计目标的决策过程

本文介绍了非累积马尔可夫决策过程（NCMDPs）与标准马尔可夫决策过程（MDPs）之间的一种映射关系，并展示了在强化学习中的应用，包括经典控制、金融组合优化和离散优化问题。通过我们的方法，相较于依赖标准 MDPs，我们可以改善最终性能和训练时间。

May, 2024

特征强化学习：第一部分：非结构化 MDPs

本文研究如何自动化减少任务的状态表达，以将通用的智能学习机设定为 MDP 框架，从而扩大许多现有强化学习算法和使用它们的机器人的范围，并开发一种形式化的客观标准作为搜索可行 MDPs 的指导，并在算法中将各个部分整合到一起。

Jun, 2009

使用神经常微分方程的基于模型的半马尔科夫决策过程强化学习

本论文介绍了两种用于半 Markov 决策过程的新型模型强化学习框架中，用神经常微分方程建模连续时间动力学的优雅解决方案。我们的模型准确地表征了连续时间动态，使我们能够使用少量数据开发出高效的策略。同时，我们还开发了一种基于模型的方法用于优化时间表，以减少与环境的交互频率，同时保持近乎最优的性能。我们通过各种连续时间领域的实验，证明了我们方法的有效性。

Jun, 2020

马尔可夫决策过程的多目标模型检查

提供了一种高效的算法来解决多目标模型检验问题，该算法通过随机化策略来实现，在多项式时间内计算了一组 ω -regular 性质的近似 Pareto 曲线，并使用图论方法分析了一些定性多目标模型检验问题。

Oct, 2008

Omega 正则决策过程

引入一种新型的 omega-regular 决策过程 (ODPs)，通过将其规约为有限 MDPs 上的字典序优化和学习，实现了对 ODPs 的优化和学习。

Dec, 2023