Jan, 2023

关于智能交通系统环境下多智能体深度确定性策略梯度及其可解释性探究

TL;DR本文主要研究 Autonomous Driving 中 Multi-Agent RL 或 MARL 的问题,提出了基于 on-policy 和 off-policy RL 方法的 MAPPO 和 MADDPG 方法,并结合 SMARTS 环境中的路标讨论其可解释性和潜在改进领域。