Jun, 2024

一般马尔可夫决策过程的加权网格算法:收敛性与可计算性

TL;DR我们引入了一种网格型方法来解决具有一般特征的离散时间有限时间马尔科夫决策过程(MDPs),该过程具有一般的状态和动作空间,包括欧几里得空间的有限和无限(但合适地规则的)子集。