Sep, 2018

深度多智能体强化学习中的负向更新间隔

TL;DR这篇论文研究了多智能体强化学习中的路径效应问题,发现现有的弱化和反应性方法在处理复杂领域的多个病理时无法保持一致,提出了一种名为 Negative Update Intervals-DDQN 的新算法,能够在大型观测空间和具有多种病理的环境中,始终朝着最优的联合策略学习。