Aug, 2020

随机镜像下降法高效求解MDPs

TL;DR通过基于原始-对偶随机镜像下降的统一框架,提供了一种近似求解具有生成模型的无限时域马尔可夫决策过程,同时提出了解决双线性鞍点问题与约束MDPs的方法。