Dec, 2021

零样本人工智能协同的最大熵基于人口训练

TL;DR本文提出了一种通过最大熵种群训练(MEP)来训练 RL 系统的方法,以促进代理系统间的多样性和个体代理自身的多样性,并通过优先采样对资深代理进行训练。在 Overcooked 游戏环境中,与自我游戏 PPO(SP)等方法进行比较,我们证明了 MEP 方法的有效性。