May, 2021

基于模型的多智能体策略优化与对手智能化决策

TL;DR本文研究了多智能体强化学习中的基于模型的方法,提出了自适应对手推演策略优化(AORPO)的分散化的基于模型的MARL方法,旨在全过程中降低样本复杂度,并在竞争和合作任务中开展实证研究,表明AORPO能够实现比对比MARL方法更好的样本效率和相似的渐近性能。