ICMLAug, 2020

随机镜像下降法高效求解 MDPs

TL;DR通过基于原始 - 对偶随机镜像下降的统一框架,提供了一种近似求解具有生成模型的无限时域马尔可夫决策过程,同时提出了解决双线性鞍点问题与约束 MDPs 的方法。