Dec, 2018

极端嘈杂观测下的多智能体深度强化学习

TL;DR使用通信媒介增强的多智能体深度确定性策略梯度算法在六种高度非稳态环境中表现良好,相比基线模型具有显著性能提升。