Oct, 2018

CURIOUS: 内在动机模块化多目标强化学习

TL;DR该论文提出了一种名为CURIOUS的算法,它利用MODULAR Universal Value Function Approximator和自动化课程学习机制来实现学习代理的自主目标设定和自我组织学习课程,实现学习目标的快速最优化。