关键词stochastic policy gradients
搜索结果 - 2
- MM通过实验计算梯度:使用 LSTM 和记忆近端策略优化进行黑盒量子控制
本文介绍了黑盒量子控制作为一个有趣的强化学习问题在机器学习领域的应用,并分析了在量子物理中出现的强化学习问题的结构,提出了通过受随机策略梯度训练长短期记忆(LSTM)网络进行参数化的代理,提供了解决这些问题的一般方法,引入了一种基于此分析的 - AAAI预期策略梯度
论文提出了一种集成了随机策略梯度和确定性策略梯度的预期策略梯度,通过对动作的积分来估算梯度,证明了其可以降低梯度估算的方差,对于高斯探索,通过设置动作的海森矩阵的指数作为协方差比标准探索更优,在四个 MuJoCo 域中明显优于使用奥恩斯坦