Dec, 2023

DCIR: 多智能体强化学习的动态一致性内部奖励

TL;DR为了解决多智能体系统中智能体学习最优行为策略的问题,本文提出了一种新方法来利用内部奖励使智能体能够学习是否应该与其他智能体保持一致的行为,并通过动态一致性内部奖励 (DCIR) 和动态比例网络 (DSN) 来评估其效果。