Dec, 2021
零样本人工智能协同的最大熵基于人口训练
Maximum Entropy Population-Based Training for Zero-Shot Human-AI Coordination
Rui Zhao, Jinming Song, Yufeng Yuan, Hu Haifeng, Yang Gao...
TL;DR本文提出了一种通过最大熵种群训练(MEP)来训练 RL 系统的方法,以促进代理系统间的多样性和个体代理自身的多样性,并通过优先采样对资深代理进行训练。在 Overcooked 游戏环境中,与自我游戏 PPO(SP)等方法进行比较,我们证明了 MEP 方法的有效性。