具有无限状态空间的马尔可夫决策过程度量

Jul, 2012

具有无限状态空间的马尔可夫决策过程度量

Metrics for Markov Decision Processes with Infinite State Spaces

Norman Ferns, Prakash Panangaden, Doina Precup

TL;DR本文提出了度量具有无限状态的马尔可夫决策过程（MDPs）中状态相似性的指标，包括具有连续状态空间的 MDPs。这样的指标为 MDPs 的同步关系提供了稳定的定量分析，适用于 MDP 逼近。我们展示了与我们的指标距离有关的贴现无限时域规划任务相关的最优价值函数连续变化的情况。

Abstract

We present metrics for measuring state similarity in Markov decision processes (MDPs) with infinitely many states, including MDPs with continuous state spaces. Such metrics provide a stable quantitative analogue of the notion of →

markov decision processes state similarity bisimulation mdp approximation infinite horizon planning

发现论文，激发创造

有限马尔可夫决策过程的度量

该研究提出了用于测量有限马尔可夫决策过程（MDP）状态相似性的度量标准，其基于 MDP 的这种有限状态的相似性概念构建，并可应用于强化学习任务的价值函数逼近器中。通过该度量标准，优化 MDP 中给定状态的最优值与度量距离之间关系的边界得到了提供。

Jul, 2012

确定性马尔科夫决策过程中计算状态相似性的可扩展方法

本文针对 MDPs 中 Bisimulation Metrics 的计算提出了新的算法，包括适用于连续状态 MDP 的可微损失函数，其中第一算法通过采样保证收敛性，第二算法通过学习实现了对大规模、确定性 MDP 的近似计算。

Nov, 2019

马尔可夫决策过程中计算状态相似性的方法

本文运用网络优化和统计抽样技术，克服了计算 Kantorovich 度量在实践中的成本问题，提出了一系列用于 MDP 状态聚合的距离函数，这些函数在时间和空间复杂度以及聚合质量之间存在不同的权衡，并对这些权衡进行了实证评估。

Jun, 2012

游戏指标算法

基于模拟和双模拟的指标可以用于系统验证和性能评估，适用于定量的 mu - 演算和相关概率逻辑，对于马尔可夫链，我们提供了一个 PSPACE 算法，以匹配最佳算法，并且这些算法可以通过二分搜索来逼近指标。

Sep, 2008

强化学习中的度量和连续性

本文通过介绍度量学和邻域的形式表述，建立了各种相似度度量之间的层次结构，并研究了这些度量的理论性质和在强化学习问题上的应用，同时结合实验结果，进一步探讨了这些度量方法的差异。

Feb, 2021

使用双仿度量进行近似策略迭代

本文提出 Sinkhorn 距离可以定义 Bisimulation metrics，通过 Bisimulation-based discretization 的 Approximate Policy Iteration 可以在 Actor-Critic methods 中更好的学到状态表示，理论分析和实验结果支持我们的结论。

Feb, 2022

MICo: 基于采样状态相似性的改进型马尔可夫决策过程表示

本文提出了一种新的行为距离方法，用于深度强化学习智能体的学习表示，并通过理论和实证研究表明，该方法可以有效地解决现有状态相似性学习通常存在的计算成本高和缺乏基于样本的算法的问题，同时在 Arcade Learning Environment 基准测试中取得了良好的结果。

Jun, 2021

带 Borel 空间的马尔科夫决策过程的有限逼近的渐近最优性

本文针对局限于有限状态下的马尔可夫决策过程，对于包括折扣和平均成本标准在内的情况进行了研究，获得了近似最优策略，使用预处理步骤将操作空间有限近似，可以使用众所周知的算法计算近似最优政策。

Mar, 2015

似曾相识度量是最优传输距离，并且可以高效计算

我们提出了一种新的框架，用于在马尔科夫链之间制定最佳输运距离的形式化。我们将此问题转化为在约化空间中求解线性规划的问题，并且通过 Sinkhorn Value Iteration 方法计算最佳输运距离，从而得到与马尔科夫链的 bisimulation metrics 完全匹配的结果。

Jun, 2024

无记忆随机策略优化在无限时域 POMDP 中的几何

本研究考虑了有限状态和动作空间的无穷时部分观察到的马尔可夫决策问题中，根据折扣或平均收益准则找到最佳的无记忆随机策略并描述了优化问题作为可行状态 - 动作频率空间中的线性优化问题并使用了多项式优化的最大化奖励来解决导航问题。

Oct, 2021