Jun, 2020

非平稳环境中的策略优化动态遗憾

TL;DR本文提出了两种针对具有对抗性全信息奖励反馈和未知固定转移核的情境MDPs的无模型策略优化算法POWER和POWER ++,并建立了它们的动态后悔保证。