BriefGPT.xyz
Ask
alpha
关键词
affine gaussian policies
搜索结果 - 1
策略梯度算法通过延续隐式优化
本研究提供了关于策略梯度算法的新的理论解释和证明。同时,文章还提出,策略梯度算法中的探索是计算当前政策回报的连续,而策略的方差应该是适应历史的函数,以避免局部极值,而不是为了最大化政策的回报。
PDF
a year ago
Prev
Next