Jun, 2021

凸 MDP 的奖励足矣

TL;DR本文研究在马尔可夫决策过程中用凸函数表达目标的问题,使用 Fenchel 对偶将其重新表达为一个涉及策略和成本(负奖励)的 min-max 博弈,并提出一个元算法以统一现有文献中的各种算法。