Jun, 2023

离线多智能体强化学习与耦合值因子分解

TL;DROMAC 是一种新的离线多智能体强化学习算法,采用耦合值分解方案将全局价值函数分解为本地和共享组件,并保持状态值和 Q 值函数之间的信用分配一致性,并在分解的本地状态值函数上执行样本内学习,同时避免由于评估分布外动作而引起的分布移位,基于综合评估离线多智能体 StarCraft II 微观管理任务,我们展示了 OMAC 比最先进的离线多智能体 RL 方法具有更优越的性能。