Dec, 2024

解决鲁棒马尔可夫决策过程:通用、可靠、高效

TL;DR本文解决了一种鲁棒马尔可夫决策过程(RMDP)中的不确定性问题,提出了一种通用、可靠且高效的求解框架。研究发现,该框架不仅能高效处理多种不确定性集合,还能在计算过程中提供精度保证,最显著的影响是它可以在短时间内解决具有上百万状态的RMDP。