Jun, 2022

部分可观马尔可夫博弈中高效学习的样本有效强化学习

TL;DR本文研究了多智能体强化学习在部分可观察性下的挑战性任务,其中每个智能体只能看到自己的观察和动作。我们通过考虑广义模型的部分可观察马尔科夫博弈,证明了一个富裕的子类可以使用样本高效的学习方法,从而找到弱显式部分可观察马尔科夫博弈的近似纳什均衡、相关均衡以及粗略相关均衡,当代理数量很小时可在多项式样本复杂度内学得。