ICMLMar, 2017

强化学习中的选项发现拉普拉斯框架

TL;DR本文介绍了如何通过引入特征奇异目的 (intrinsic reward functions) 从学习过后的 PVFs 中隐式定义选项来解决选项发现问题,从而在强化学习中同时解决了表示学习和选项发现两大难题。