MMFeb, 2021

Softmax Policy Gradient 方法可能需要指数时间才能收敛

TL;DR该研究针对 softmax policy gradient 方法在无限时间马尔可夫决策过程中全局收敛的复杂度问题进行了探究,给出了反例并提示了在加速 PG 方法中调整更新规则或强制执行适当规则化的必要性。