Jun, 2023
ReLU 拯救:通过正 Advantage 改进你的 On-Policy Actor-Critic 模型
ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive Advantages
Andrew Jesson, Chris Lu, Gunshi Gupta, Angelos Filos, Jakob Nicolaus Foerster...
TL;DR本文介绍了一种用于加强 on-policy 进行深度强化学习(DRL)算法的有效性的新方法,通过在价值函数估计中加入了保守性指标,同时使用 Thompson sampling 来实现谨慎探索,改进了现有算法,从而在多个基准中进行了严格的实证评估,并提供了理论证明,表明了新算法的可行性,特别是在多智能体强化学习中。