Oct, 2022

多智能体强化学习通用的行为处理(RPM)

TL;DR本文设计了一个基于自我博弈的新型强化学习方法,称为RPM,通过在多智能体强化学习中维护一种策略记忆,在训练MARL代理时收集多样化的多智能体轨迹,大幅提升了其泛化能力,可在未知的多智能体评估场景中完成任务,且性能平均提升了402%。