May, 2023

策略梯度算法通过延续隐式优化

TL;DR本研究提供了关于策略梯度算法的新的理论解释和证明。同时,文章还提出,策略梯度算法中的探索是计算当前政策回报的连续,而策略的方差应该是适应历史的函数,以避免局部极值,而不是为了最大化政策的回报。