Wasserstein不确定性下的马尔科夫决策过程稳健Q学习算法

Sep, 2022

Wasserstein不确定性下的马尔科夫决策过程稳健Q学习算法

Robust $Q$-learning Algorithm for Markov Decision Processes under Wasserstein Uncertainty

Ariel Neufeld, Julian Sester

TL;DR我们提出了一种新的$Q$-learning算法，用于解决分配鲁棒的马尔可夫决策问题。我们证明了算法的收敛性，并提供了几个示例来说明我们算法的可处理性以及考虑分布稳健性在解决随机最优控制问题时的好处，尤其是在实践中估计的分布出现错误时。

Abstract

We present a novel $Q$-learning algorithm to solve distributionally robust markov decision problems, where the corresponding ambiguity set of transition probabilities for the underlying Markov decision process is