无模型强化学习中的 Omega-Regular 目标

Sep, 2018

无模型强化学习中的 Omega-Regular 目标

Omega-Regular Objectives in Model-Free Reinforcement Learning

Ernst Moritz Hahn, Mateo Perez, Sven Schewe, Fabio Somenzi, Ashutosh Trivedi...

TL;DR以非模式的方式提供了《ӏ–正则》监控下的最终快模满觉目标。

Abstract

We provide the first solution for model-free reinforcement learning of {\omega}-regular objectives for markov decision processes (MDPs). We present a constructive reduction from the almost-sure satisfaction of {\

model-free reinforcement learning markov decision processes ω-regular objectives limit-deterministic buechi automata optimal strategies

发现论文，激发创造

连续时间 MDP 的 Omega 正则规范的强化学习

探究离散时间 Markov 决策过程的自动翻译问题，提出了一种能够实现正确翻译为标量奖励信号的算法。该算法适用于 omega 正则语言对时态较为严格的情况，并使用了最新的基于转义的自动翻译技术。

Mar, 2023

Ω 正则奖励机

通过将奖励机制与 ω- 正则语言相结合，本文介绍了 ω- 正则奖励机器，用于强化学习中的非马尔可夫奖励的表达，提出了一个模型无关的 RL 算法来计算针对 ω- 正则奖励机器的 epsilon - 最优策略，并通过实验证明了算法的有效性。

Aug, 2023

马尔可夫决策过程的多目标模型检查

提供了一种高效的算法来解决多目标模型检验问题，该算法通过随机化策略来实现，在多项式时间内计算了一组 ω -regular 性质的近似 Pareto 曲线，并使用图论方法分析了一些定性多目标模型检验问题。

Oct, 2008

在 MDPs 中用于 LTL 和 ω-regular 目标的 PAC 学习算法

引入了一个基于模型的近似正确（PAC）学习算法，用于解决马尔可夫决策过程中的 omega 正则目标。不同于之前的方法，该算法从系统的采样轨迹中学习，不需要对系统拓扑的先验知识。

Oct, 2023

关于具有 ω- 正则目标的部分可观察马尔可夫决策过程的可决定性

本文他认为配对绘图监测问题的 POMDP 用内存 Markov 实现的部分角色并支持 parity 主题，并讲达了所有 parity 主题的重置分析问题及可编码重置分析命令为有限内存内存固定质量。

Sep, 2013

基于平均奖励的马尔可夫决策过程更为精确的无模型强化学习

我们提出了多种经过证明有效的无模型强化学习算法，包括基于参考优势分解的在线无模型强化学习算法以及适用于模拟器环境的无模型强化学习算法，在平均报酬马尔科夫决策过程中实现更好的折扣估计和置信区间的高效构建。

Jun, 2023

部分可观察马尔可夫决策过程的定性分析

本文针对部分可观察 Markov 决策过程（POMDPs）和 ω 正则目标，研究了基于观测的策略，并解决了定性分析问题的计算复杂度和最优内存界限。

Sep, 2009

约束强化学习的平均奖励目标：基于模型和无模型算法

在这份研究论文中，通过系统研究了强化学习（Reinforcement Learning）在约束条件下的模型方法和无模型方法，着重分析了平均奖励随机决策过程中乐观和后验取样的基础方法以及参数化模型无关方法，同时在解决约束决策过程中提供遗憾保证和约束违规分析。同时，还探讨了在弱通信随机决策过程中的结果，扩大了研究结果的适用范围。

Jun, 2024

无模型强化学习中的无限时域平均奖赏马尔可夫决策过程

本文提出两种基于无模型的强化学习算法，用于学习无限时间持续的平均回报 MDP 问题，第一种算法在弱相互通信的 MDPs 中，将问题简化为折扣回报问题，在 T 步之后的遗憾为 O (T^(2/3)), 该算法是解决该问题的第一种无模型的算法；第二种算法利用了对抗多臂老虎机自适应算法的最新进展，将遗憾进一步改进至 O (sqrt (T))，但需要更强的符合人类定义的遍历条件。这个结果取代了 Abbasi-Yadkori 等人 2019 年只有在符合人类定义的遍历条件下的 ergodic MDP 才能达到 O (T^(3/4)) 的遗憾。

Oct, 2019

具有不完美信息的 Omega 正则博弈算法

本文研究了基于观察的策略在具有 ω- 正则目标的图上的两人回合制游戏中的应用。我们提出了计算状态集合的固定点算法，解决了玩家使用确定性和随机化观察策略进行游戏的问题。

Jun, 2007