Aug, 2024
基于部分奖励解耦的多智能体近端策略优化中的信用分配
Assigning Credit with Partial Reward Decoupling in Multi-Agent Proximal
Policy Optimization
TL;DR本文针对多智能体强化学习中的信用分配问题,提出了一种改进的多智能体强化学习算法PRD-MAPPO。该方法通过部分奖励解耦技术,利用学习的注意机制评估智能体的队友相关性,从而高效地进行信用分配,并在多个任务上展示了优于MAPPO的更高数据效率和渐近性能。