Mar, 2024

策略镜像下降与前瞻

TL;DR提出了一种名为$h$-PMD的新型PMD算法类,它将多步贪心策略改进与PMD更新规则相结合,以解决具有lookahead深度$h$的折扣无限时间马尔可夫决策过程,并且拓展到线性函数逼近以适应大状态空间。