Jun, 2022

多智能体强化学习中带有反事实预测的助攻价值因子分解算法

TL;DR本篇论文提出了 PAC 框架,其中包含基于 Assistive 信息和 Counterfactual Predictions 的新颖 counterfactual loss,此框架考虑到局部顺序对表征函数造成的约束并解决了该限制,同时采用基于变分推断的信息编码方法以收集并编码来自基线的反事实预测,并推导出针对每个代理的分解策略,最后在多智能体捕食 - 逃生和一组 StarCraft II 微观管理任务中验证了 PAC 的有效性。