Aug, 2024

基于部分奖励解耦的多智能体近端策略优化中的信用分配

TL;DR本文针对多智能体强化学习中的信用分配问题,提出了一种改进的多智能体强化学习算法PRD-MAPPO。该方法通过部分奖励解耦技术,利用学习的注意机制评估智能体的队友相关性,从而高效地进行信用分配,并在多个任务上展示了优于MAPPO的更高数据效率和渐近性能。