Nov, 2023

合作任务的乐观多智体策略梯度

TL;DR基于乐观主义更新和激活函数的优化,解决了多智能体学习中的相对过度概括问题,并在复杂任务中表现出优异性能。