Sep, 2022

Wasserstein 不确定性下的马尔科夫决策过程稳健 Q 学习算法

TL;DR我们提出了一种新的 $Q$-learning 算法,用于解决分配鲁棒的马尔可夫决策问题。我们证明了算法的收敛性,并提供了几个示例来说明我们算法的可处理性以及考虑分布稳健性在解决随机最优控制问题时的好处,尤其是在实践中估计的分布出现错误时。