policy-gradient algorithms | BriefGPT

关键词policy-gradient algorithms

搜索结果 - 4

政策梯度背后的探索神话
我们提出了一种新的分析方法，并区分了探索技术的两个不同影响。首先，它们使得能够平滑学习目标并消除局部最优解，同时保留全局最优解。其次，它们修改了梯度估计，增加了随机参数更新最终提供最优策略的概率。在这些影响的基础上，我们讨论并通过熵奖励进行
PDF5 months ago
策略梯度算法在线性二次博弈中没有收敛保证
本文章主要对多智能体马尔可夫决策过程中的政策梯度算法进行研究，经由分析线性二次博弈的梯度播放，得到该算法并不存在全局收敛到 Nash 平衡点的保证，且通过实验发现此类情况并不少见。
PDF5 years ago
基于离线训练和函数近似的收敛演员 - 评论家算法
我们提出了第一种同时适用于状态值和策略函数逼近的政策梯度算法，保证在离线学习下收敛，解决了动作表示问题带来的高维 “诅咒” 问题，这些算法是基于基于平均状态值函数目标的渐变高演员 - 评论家和强调梯度的高演员 - 评论家推导而来，能够保持所
PDF6 years ago
基于梯度的强化学习的最优奖励基准线
研究了基于策略梯度的强化学习算法中关于梯度估计差异的问题，并提出将一个奖励基线纳入到学习系统中来降低差异，进而提高算法性能的方法。
PDF11 years ago