ICLRMay, 2024

LOQA:带有对手 Q 学习意识的学习

TL;DR本文介绍了一种名为 LOQA 的分布式强化学习算法,用于在部分竞争环境中优化代理个体效用并促进对手之间的合作,在统一代理应用中取得了良好的性能。