Mar, 2023

高效多智能体强化学习中的因果检测

TL;DR通过引入时间因果关系的惩罚机制,多智能体强化学习问题中的懒惰智能体可以在了解到其本地观察与团队回报的因果关系的基础上,在团队表现和个体能力方面得到改善。