ICLRMar, 2022

多智能体强化学习中影响长期行为

TL;DR本文提出了一个基于 farsighted objective 的新优化目标以及一种新的多智能体强化学习方法,实现了优于现有基线结果的长期性能。