BriefGPT.xyz
May, 2021
基于模型的多智能体策略优化与对手智能化决策
Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise Rollouts
HTML
PDF
Weinan Zhang, Xihuai Wang, Jian Shen, Ming Zhou
TL;DR
本文研究了多智能体强化学习中的基于模型的方法,提出了自适应对手推演策略优化(AORPO)的分散化的基于模型的MARL方法,旨在全过程中降低样本复杂度,并在竞争和合作任务中开展实证研究,表明AORPO能够实现比对比MARL方法更好的样本效率和相似的渐近性能。
Abstract
This paper investigates the
model-based methods
in
multi-agent reinforcement learning
(MARL). We specify the dynamics
sample complexity
an
→