具有无限状态空间的马尔可夫决策过程度量
该研究提出了用于测量有限马尔可夫决策过程(MDP)状态相似性的度量标准,其基于 MDP 的这种有限状态的相似性概念构建,并可应用于强化学习任务的价值函数逼近器中。通过该度量标准,优化 MDP 中给定状态的最优值与度量距离之间关系的边界得到了提供。
Jul, 2012
本文针对 MDPs 中 Bisimulation Metrics 的计算提出了新的算法,包括适用于连续状态 MDP 的可微损失函数,其中第一算法通过采样保证收敛性,第二算法通过学习实现了对大规模、确定性 MDP 的近似计算。
Nov, 2019
本文运用网络优化和统计抽样技术,克服了计算 Kantorovich 度量在实践中的成本问题,提出了一系列用于 MDP 状态聚合的距离函数,这些函数在时间和空间复杂度以及聚合质量之间存在不同的权衡,并对这些权衡进行了实证评估。
Jun, 2012
基于模拟和双模拟的指标可以用于系统验证和性能评估,适用于定量的 mu - 演算和相关概率逻辑,对于马尔可夫链,我们提供了一个 PSPACE 算法,以匹配最佳算法,并且这些算法可以通过二分搜索来逼近指标。
Sep, 2008
本文通过介绍度量学和邻域的形式表述,建立了各种相似度度量之间的层次结构,并研究了这些度量的理论性质和在强化学习问题上的应用,同时结合实验结果,进一步探讨了这些度量方法的差异。
Feb, 2021
本文提出 Sinkhorn 距离可以定义 Bisimulation metrics,通过 Bisimulation-based discretization 的 Approximate Policy Iteration 可以在 Actor-Critic methods 中更好的学到状态表示,理论分析和实验结果支持我们的结论。
Feb, 2022
本文提出了一种新的行为距离方法,用于深度强化学习智能体的学习表示,并通过理论和实证研究表明,该方法可以有效地解决现有状态相似性学习通常存在的计算成本高和缺乏基于样本的算法的问题,同时在 Arcade Learning Environment 基准测试中取得了良好的结果。
Jun, 2021
本文针对局限于有限状态下的马尔可夫决策过程,对于包括折扣和平均成本标准在内的情况进行了研究,获得了近似最优策略,使用预处理步骤将操作空间有限近似,可以使用众所周知的算法计算近似最优政策。
Mar, 2015
我们提出了一种新的框架,用于在马尔科夫链之间制定最佳输运距离的形式化。我们将此问题转化为在约化空间中求解线性规划的问题,并且通过 Sinkhorn Value Iteration 方法计算最佳输运距离,从而得到与马尔科夫链的 bisimulation metrics 完全匹配的结果。
Jun, 2024
本研究考虑了有限状态和动作空间的无穷时部分观察到的马尔可夫决策问题中,根据折扣或平均收益准则找到最佳的无记忆随机策略并描述了优化问题作为可行状态 - 动作频率空间中的线性优化问题并使用了多项式优化的最大化奖励来解决导航问题。
Oct, 2021