Mar, 2020
一种混合随机策略梯度算法用于强化学习
A Hybrid Stochastic Policy Gradient Algorithm for Reinforcement Learning
Nhan H. Pham, Lam M. Nguyen, Dzung T. Phan, Phuong Ha Nguyen, Marten van Dijk...
TL;DR提出了一种新的混合随机策略梯度估计器,并使用此估计器开发了一种新的混合随机策略梯度算法(ProxHSPGA)来解决复合策略优化问题,该算法可以处理策略参数上的约束或规则化,已经在强化学习中的一些示例上进行了评估和验证。