Aug, 2023
多智能体强化学习中避免重复探索
Never Explore Repeatedly in Multi-Agent Reinforcement Learning
TL;DR在多智能体强化学习领域,内在动机作为一种重要的探索工具已经出现。我们提出了一种动态奖励缩放方法,以应对神经网络统计近似器的有限表达能力所带来的挑战,并有效控制多次重复访问任务空间的现象,在Google Research Football和StarCraft II微管理任务等挑战性环境中展示了改进的性能,尤其是在稀疏奖励设置下。