BriefGPT.xyz
Ask
alpha
关键词
softmax policy gradient
搜索结果 - 3
面向基于行动者和表格式马尔可夫决策的有原则实用策略梯度
我们考虑用于赌博机和表格马尔可夫决策过程(MDP)的(随机)softmax 策略梯度(PG)方法。最近的研究利用了 PG 目标的平滑性和梯度支配性质来实现对最优策略的收敛,而不需要设置算法参数。为了解决这个问题,我们借鉴了优化文献的思路,在
→
PDF
2 months ago
政策梯度方法的基本分析
在本文中,我们对以往的优化方法进行系统研究,讨论了削影策略梯度、softmax 策略梯度、自然策略梯度等算法的全局和局部收敛性,提出了新的结果和分析技术。
PDF
3 months ago
MM
Softmax Policy Gradient 方法可能需要指数时间才能收敛
该研究针对 softmax policy gradient 方法在无限时间马尔可夫决策过程中全局收敛的复杂度问题进行了探究,给出了反例并提示了在加速 PG 方法中调整更新规则或强制执行适当规则化的必要性。
PDF
3 years ago
Prev
Next