Feb, 2022

如何协作训练异质强化学习代理,使其适应稀疏回报的环境?

TL;DR本研究结合内在动机和传递学习的思想,探讨了基于行动者-评论家模型共享参数和结合内在动机信息的多智能体协同学习算法,在探索和学习效率上有一定提升,并强调正确调节外部和内部奖励间的重要性,以避免不良学习行为。