Mar, 2020

一种混合随机策略梯度算法用于强化学习

TL;DR提出了一种新的混合随机策略梯度估计器,并使用此估计器开发了一种新的混合随机策略梯度算法(ProxHSPGA)来解决复合策略优化问题,该算法可以处理策略参数上的约束或规则化,已经在强化学习中的一些示例上进行了评估和验证。