ICLRFeb, 2018

学习马尔可夫势博弈的参数封闭回路策略

TL;DR针对共享公共资源时的多智能体系统,本文研究马尔可夫潜在博弈,提出了一种基于参数策略的闭环型纳什均衡解法,通过解一个单目标优化问题获得了一个最优策略,应用于实例中的无合作通信博弈,并通过深度强化学习算法学习了一个接近博弈精确变分均衡的策略。