Jun, 2023

ReLU 拯救:通过正 Advantage 改进你的 On-Policy Actor-Critic 模型

TL;DR本文介绍了一种用于加强 on-policy 进行深度强化学习(DRL)算法的有效性的新方法,通过在价值函数估计中加入了保守性指标,同时使用 Thompson sampling 来实现谨慎探索,改进了现有算法,从而在多个基准中进行了严格的实证评估,并提供了理论证明,表明了新算法的可行性,特别是在多智能体强化学习中。