May, 2023
多智能体强化学习:异步通信和线性函数逼近
Multi-agent Reinforcement Learning: Asynchronous Communication and
Linear Function Approximation
TL;DR该论文研究了多智能体强化学习在时序马尔科夫决策过程的情景下的应用,提出了一种基于价值迭代的算法,实现异步通信并保证协作的优势,证明了,当使用线性函数逼近时,该算法的遗憾值可达到 $\tilde{\mathcal{O}}(d^{3/2}H^2\sqrt{K})$,且通信复杂度为 $\tilde{\mathcal{O}}(dHM^2)$。