Feb, 2023

MAC-PO: 基于集体优先级优化的多智能体经验回放

TL;DR通过优化采样权重,将优先经验回放应用于多智能体强化学习 (MARL) 中,以最小化策略遗憾并获得更好的优先级方案,提高训练效率并在实验中表现出良好的效果。