Sep, 2022

自主驾驶多智能体训练的新方法

TL;DR本论文提出了一种名为 Lepus 的全新方法,用于通过纯合作训练多个代理进行安全和协作控制的自主驾驶复杂场景中的控制。该方法通过共享政策网络的共享参数和多个代理的分享奖励功能来训练多个代理,从而提高了它的协作决策能力和汽车驾驶的稳定性。此外,Lepus 通过结合随机网络和蒸馏网络从专家轨迹中学习近似奖励函数以缓解稀疏奖励问题。大量实验结果表明,Lepus 训练的多个代理可以在同时驾驶时尽可能避免碰撞,并在稳定性方面胜过 DDPG-FDE、PSDDPG、MADDPG 和 MAGAIL(DDPG)的其他四种方法。