Joshua Achiam, Harrison Edwards, Dario Amodei, Pieter Abbeel
TL;DR本文探讨了基于变分推断的选项发现方法,提出了一种新的基于变分自编码器的 VALOR 方法,并使用课程学习的技巧增加了 agent 能够学习的多种行为模式,通过研究方法的限制以及从学习选项到下游任务的应用等主题来探讨相关领域。
Abstract
We explore methods for option discovery based on variational inference and
make two algorithmic contributions. First: we highlight a tight connection
between variational option discovery methods and variational autoenco