Dec, 2019

SMiRL:降低不稳定环境下惊喜的强化学习

TL;DR本文提出SMiRL这个强化学习方法,该方法能让agent通过寻求稳定且可预测的情境,进而与环境中的熵对抗,从而能学会玩俄罗斯方块、Doom,控制机器人躲避跌落,以及在迷宫中躲避敌人而不需要任务特定奖励的监督。