Jul, 2018

变分选项发现算法

TL;DR本文探讨了基于变分推断的选项发现方法,提出了一种新的基于变分自编码器的 VALOR 方法,并使用课程学习的技巧增加了 agent 能够学习的多种行为模式,通过研究方法的限制以及从学习选项到下游任务的应用等主题来探讨相关领域。