TL;DR该论文提出了一种名为CURIOUS的算法,它利用MODULAR Universal Value Function Approximator和自动化课程学习机制来实现学习代理的自主目标设定和自我组织学习课程,实现学习目标的快速最优化。
Abstract
In open-ended and changing environments, agents face a wide range of potential tasks that may or may not come with associated reward functions. Such autonomous learning agents must be able to generate their own tasks through a process of →
在多智能体强化学习领域,内在动机作为一种重要的探索工具已经出现。我们提出了一种动态奖励缩放方法,以应对神经网络统计近似器的有限表达能力所带来的挑战,并有效控制多次重复访问任务空间的现象,在Google Research Football和StarCraft II微管理任务等挑战性环境中展示了改进的性能,尤其是在稀疏奖励设置下。