Aug, 2014

通过策略搜索学习合作

TL;DR本文提出了一种基于梯度的分布式策略搜索方法,用于合作博弈中的部分可观测环境,比较了本地最优和纳什均衡的概念,实验结果表明该方法的有效性。