Oct, 2021

去中心化一般和马尔可夫博弈中具有可证明效率的强化学习

TL;DR本文提出了一种多智能体强化学习算法,可以在一般和马尔可夫博弈中学习到一个粗略的相关均衡策略,并且算法是完全分散的,智能体只有本地信息,并不知道其他智能体的存在。