Mar, 2023

多智能体强化学习中基于互信息协调的变分方法

TL;DR本文提出了一种新的用于多智能体强化学习的互信息框架,以实现多个智能体协调行为,并通过同时多智能体行为间的互信息来规范累积收益。将多个智能体行为间的互信息引入一个潜在变量,应用变分下界,得到了一个可处理的目标函数下界,该下界可以解释为最大熵强化学习与其他智能体行为的不确定性降低相结合,通过将此下界最大化,提出了一个名为变分最大互信息的多智能体演员 - 批评家算法 (VM3-AC),其遵循集中式学习与分散式执行。在多个需要协调的游戏中对 VM3-AC 进行了评估,数值结果表明 VM3-AC 在需要高质量协调的多智能体任务上胜过其他多智能体强化学习算法。