Mar, 2024

策略镜像下降与前瞻

TL;DR提出了一种名为 $h$-PMD 的新型 PMD 算法类,它将多步贪心策略改进与 PMD 更新规则相结合,以解决具有 lookahead 深度 $h$ 的折扣无限时间马尔可夫决策过程,并且拓展到线性函数逼近以适应大状态空间。