May, 2018

通过模仿和强化学习实现快速政策学习

TL;DR本文探讨了一种新的多算法策略,即将多种不同的 RL 和 IL 算法统一到一个 mirror descent 框架下,并提出了名为 LOKI 的基于策略学习的策略,通过 IL 和 RL 的结合可以优于次优专家。