Mar, 2021

带有函数逼近的可证明高效合作多智能体强化学习

TL;DR本文介绍了采用价值迭代和信息交流来解决固定通信预算下,多智能体强化学习问题,并证明了在有限信息交流的异构合作场景下,可以实现 Pareto 最优无悔学习。这个工作将多智能体情境和多武器武装带宽文献中的几个思想推广到了 MDP 和强化学习领域。