Nov, 2016

变分内在控制

TL;DR本文介绍一种新的无监督强化学习方法,旨在通过最大化智能体可靠到达的不同状态的数量来发现可用的本质选项集,并提供隐式和显式的选项表示,提供在特定状态下使用的授权最大化代理所需的显式的授权度量。