BriefGPT.xyz
Ask
alpha
关键词
actor-critic schemes
搜索结果 - 1
神经策略梯度方法:全局最优性和收敛速率
本文介绍了使用神经网络参数化的演员评论家的政策梯度方法,证明了在超参数化范围内,神经自然策略梯度以亚线性速率收敛到全局最优策略,并且神经普通策略梯度以亚线性速率收敛到稳态点。同时证明了共享神经结构和随机初始化是全局最优解和收敛的关键。该分析
→
PDF
5 years ago
Prev
Next