马尔可夫决策过程中计算状态相似性的方法

Jun, 2012

马尔可夫决策过程中计算状态相似性的方法

Methods for computing state similarity in Markov Decision Processes

Norman Ferns, Pablo Samuel Castro, Doina Precup, Prakash Panangaden

TL;DR本文运用网络优化和统计抽样技术，克服了计算 Kantorovich 度量在实践中的成本问题，提出了一系列用于 MDP 状态聚合的距离函数，这些函数在时间和空间复杂度以及聚合质量之间存在不同的权衡，并对这些权衡进行了实证评估。

Abstract

A popular approach to solving large probabilistic systems relies on aggregating states based on a measure of similarity. Many approaches in the literature are heuristic. A number of recent methods rely instead on metrics based on the notion of →

probabilistic systems state aggregation bisimulation kantorovich metric network optimization

发现论文，激发创造

确定性马尔科夫决策过程中计算状态相似性的可扩展方法

本文针对 MDPs 中 Bisimulation Metrics 的计算提出了新的算法，包括适用于连续状态 MDP 的可微损失函数，其中第一算法通过采样保证收敛性，第二算法通过学习实现了对大规模、确定性 MDP 的近似计算。

Nov, 2019

有限马尔可夫决策过程的度量

该研究提出了用于测量有限马尔可夫决策过程（MDP）状态相似性的度量标准，其基于 MDP 的这种有限状态的相似性概念构建，并可应用于强化学习任务的价值函数逼近器中。通过该度量标准，优化 MDP 中给定状态的最优值与度量距离之间关系的边界得到了提供。

Jul, 2012

游戏指标算法

基于模拟和双模拟的指标可以用于系统验证和性能评估，适用于定量的 mu - 演算和相关概率逻辑，对于马尔可夫链，我们提供了一个 PSPACE 算法，以匹配最佳算法，并且这些算法可以通过二分搜索来逼近指标。

Sep, 2008

具有无限状态空间的马尔可夫决策过程度量

本文提出了度量具有无限状态的马尔可夫决策过程（MDPs）中状态相似性的指标，包括具有连续状态空间的 MDPs。这样的指标为 MDPs 的同步关系提供了稳定的定量分析，适用于 MDP 逼近。我们展示了与我们的指标距离有关的贴现无限时域规划任务相关的最优价值函数连续变化的情况。

Jul, 2012

MICo: 基于采样状态相似性的改进型马尔可夫决策过程表示

本文提出了一种新的行为距离方法，用于深度强化学习智能体的学习表示，并通过理论和实证研究表明，该方法可以有效地解决现有状态相似性学习通常存在的计算成本高和缺乏基于样本的算法的问题，同时在 Arcade Learning Environment 基准测试中取得了良好的结果。

Jun, 2021

强化学习中的度量和连续性

本文通过介绍度量学和邻域的形式表述，建立了各种相似度度量之间的层次结构，并研究了这些度量的理论性质和在强化学习问题上的应用，同时结合实验结果，进一步探讨了这些度量方法的差异。

Feb, 2021

使用双仿度量进行近似策略迭代

本文提出 Sinkhorn 距离可以定义 Bisimulation metrics，通过 Bisimulation-based discretization 的 Approximate Policy Iteration 可以在 Actor-Critic methods 中更好的学到状态表示，理论分析和实验结果支持我们的结论。

Feb, 2022

利用机器学习改进 MDPs 的概率双模拟

我们提出了一种新技术，通过使用给定模型的 PRISM 程序构建一些模型的小版本并训练一个分类器，然后应用机器学习分类技术来近似相关分区，将分区结果作为标准双模拟技术的初始分区，以减少方法的运行时间。实验结果表明，该方法与最先进的工具相比，可以显著减少运行时间。

Jul, 2023

似曾相识度量是最优传输距离，并且可以高效计算

我们提出了一种新的框架，用于在马尔科夫链之间制定最佳输运距离的形式化。我们将此问题转化为在约化空间中求解线性规划的问题，并且通过 Sinkhorn Value Iteration 方法计算最佳输运距离，从而得到与马尔科夫链的 bisimulation metrics 完全匹配的结果。

Jun, 2024

具有相似性偏置转移的无限隐马尔可夫模型

本文介绍了一个对层级狄利克雷过程隐藏马尔可夫模型 (HDP-HMM) 的拓展，它可以编码关于状态转换更可能发生在 “相邻” 的状态之间的先验信息，并通过在状态空间上定义相似度函数和通过成对相似度缩放转移概率，从而在转移分布之间引入相关性。该模型的数据增强表示形式被提出来，作为马尔可夫跳跃过程，其中有些跳跃尝试失败，而成功的概率与源状态和目标状态之间的相似度成正比。这种增强实现条件共轭并且简单地允许使用 Gibbs 抽样器。我们在扬声器日化任务和使用四部合唱数据的 “和声分析” 任务以及几个合成数据集上对模型和推理方法进行了评估，并与现有模型进行了有利的比较。

Jul, 2017