在 MDPs 中用于 LTL 和 ω-regular 目标的 PAC 学习算法

Oct, 2023

在 MDPs 中用于 LTL 和 ω-regular 目标的 PAC 学习算法

A PAC Learning Algorithm for LTL and Omega-regular Objectives in MDPs

Mateo Perez, Fabio Somenzi, Ashutosh Trivedi

TL;DR引入了一个基于模型的近似正确（PAC）学习算法，用于解决马尔可夫决策过程中的 omega 正则目标。不同于之前的方法，该算法从系统的采样轨迹中学习，不需要对系统拓扑的先验知识。

Abstract

linear temporal logic (LTL) and omega-regular objectives -- a superset of LTL -- have seen recent use as a way to express non-Markovian objectives in →

linear temporal logic omega-regular objectives reinforcement learning pac learning algorithm markov decision processes

发现论文，激发创造

连续时间 MDP 的 Omega 正则规范的强化学习

探究离散时间 Markov 决策过程的自动翻译问题，提出了一种能够实现正确翻译为标量奖励信号的算法。该算法适用于 omega 正则语言对时态较为严格的情况，并使用了最新的基于转义的自动翻译技术。

Mar, 2023

基于 LTL 规约的样本高效无模型强化学习及最优性保证

本研究提出一种基于强化学习的模型自由优化方法来学习行为策略，以最大化符合给定线性时态逻辑规范的概率。通过采用新型的产品 MDP、奖励结构和折扣机制，在各种 MDP 环境中进行实验，证明了其具有改进的样本效率和最优策略收敛性。

May, 2023

无模型强化学习中的 Omega-Regular 目标

以非模式的方式提供了《ӏ–正则》监控下的最终快模满觉目标。

Sep, 2018

在时间逻辑约束下的大致近似正确的 MDP 学习与控制

此篇论文探讨了在未知、随机环境中，通过建立模型、构造符合某些临时逻辑规则要求的 MDP，并通过 PAC-MDP 的方法，利用数据、空间和时间进行迭代更新，得到了一个在一定条件下接近最优的策略，从而达到在给定规则下最大化概率的目的。

Apr, 2014

可计算连续的强化学习目标是可 PAC 学习的

通过两个分析设置，在考虑样本复杂度和计算复杂度的情况下，证明了强化学习目标的 PAC 可学习性。给出了三个文献中以前未知的 PAC 可学习性的目标的应用，并证明了这些目标的 PAC - 可学习性。

Mar, 2023

可解释的时序逻辑学徒学习

本文讨论了在 Markov 决策过程中，使用 LTL 的公式作为代理规划的规范，通过形成多目标优化问题，从 MDP 中演示的行为轨迹中推断 LTL 规范，利用遗传编程解决该问题的有效性进行了证明。

Oct, 2017

常规决策过程中高效的 PAC 强化学习

本文探讨了如何在正则决策流程中实现强化学习，并提出了在一组参数中可以 PAC - 学习这一流程的最优策略。

May, 2021

一种适用于情节式 POMDP 的 PAC RL 算法

本文研究了部分可观的强化学习问题，并提出了首个具有多项式边界的算法，用于处理一类重要的 POMDP 问题，该算法基于最近的方法学方法来估计潜在变量模型。

May, 2016

一种基于学习的方法，用于控制合成线性时间逻辑规范的马尔可夫决策过程

使用学习理论中的技术，通过构建包含确定性 Rabin 自动机的乘积 MDP，其奖励函数来源于 Rabin 自动机的接受条件，即可合成满足线性时态逻辑（LTL）规范的控制策略，该方法在交通控制案例研究中证明可以产生合理的控制策略，即使无法保证满足 LTL 规范。

Sep, 2014

马尔可夫决策过程的多目标模型检查

提供了一种高效的算法来解决多目标模型检验问题，该算法通过随机化策略来实现，在多项式时间内计算了一组 ω -regular 性质的近似 Pareto 曲线，并使用图论方法分析了一些定性多目标模型检验问题。

Oct, 2008