Mar, 2022

自适应即时策略对接

TL;DR本文提出了使用贝叶斯推断和 Gibbs 采样等技术来解决多智能体强化学习协作中的协调难题,以实现智能体对人类和其他智能体的有效交互,并在 Hanabi 这个复杂的纸牌游戏中表现出了强大的能力。