Jan, 2022

多智体强化学习中基于状态的评论家的深入理解

TL;DR研究 centralized training 模式下 multi-agent reinforcement learning 中 state-based critics 策略评估方法可能引入的偏差和梯度方差,及对不同环境属性的影响。