Jun, 2012

马尔可夫决策过程中计算状态相似性的方法

TL;DR本文运用网络优化和统计抽样技术,克服了计算 Kantorovich 度量在实践中的成本问题,提出了一系列用于 MDP 状态聚合的距离函数,这些函数在时间和空间复杂度以及聚合质量之间存在不同的权衡,并对这些权衡进行了实证评估。