Jun, 2021

带熵正则化自然策略梯度和线性函数逼近的线性收敛

TL;DR论文分析了在函数逼近情况下,通过 softmax 参数化的熵正则化 NPG 方法,证明了该方法收敛速度为 O (1/T) 且表现出线性收敛特性,在正则化 MDP 中不需要对策略进行任何先验假设。