IJCAIMar, 2020

通过学习队友模型实现的分散 MCTS

TL;DR本文提出一种可训练的在线分散式规划算法,基于分散蒙特卡洛树搜索,结合先前的剧集运行学习的队友模型,利用深度学习和卷积神经网络生成精确的策略逼近器,提高了策划性能。此算法支持去中心化在线规划的多代理系统.