Apr, 2024

带有阶段演员的演员 - 评论家强化学习

TL;DR强化学习中的政策梯度方法在解决连续最优控制问题方面具有很大潜力。本研究提出了一种名为 Phased Actor in Actor-Critic (PAAC) 的新方法,旨在改善政策梯度估计的质量,减少随机性变化,并提供稳定的系统动力学。PAAC 在 DeepMind Control Suite (DMC) 中的评估结果显示了其在学习成本、鲁棒性、学习速度和成功率方面显著的性能提升,通过与其他相关方法的比较,为这些政策梯度算法提供了统一视角。