Aug, 2017

独立可控因素

TL;DR通过允许学习者与其环境交互,我们提出了一种特定的目标函数来发现相应于环境中互相独立可控方面的因素,并在没有任何外在奖励信号的情况下验证其可以实际分离出这些因素。