Jul, 2019

DisCoRL: 基于策略蒸馏的连续强化学习

TL;DR本文提出了 DisCoRL 方法,该方法结合状态表示学习和策略蒸馏来解决多任务强化学习中的挑战,并在三个 2D 导航任务上进行了实验验证。