Mar, 2019

Skew-Fit: 状态覆盖式自监督强化学习

TL;DR本文提出一种形式化的目标探索目标,用于最大化状态覆盖,通过学习最大熵目标分布的Skew-Fit算法,与现有目标实现方法相结合,能够在开源的视觉目标达成任务中优于以前的方法,同时让真实世界中的机器人从像素开始、无需手动设计奖励函数,学会如何打开门。