Jan, 2019

自监督学习图像嵌入以进行连续控制

TL;DR本研究探讨了完全自我监督的学习方法,基于状态达成最短时间来实现通用图像嵌入和控制基元,同时介绍了一种新的状态操作价值函数结构,建立了模型自由和模型基础方法之间的联系,并提高了学习算法的性能。三项模拟机器人任务的实验结果表明了这些发现。