ICLRNov, 2015

策略蒸馏

TL;DR本文介绍了一种称为 Policy Distillation 的新方法,它可以从强化学习代理中提取策略并训练出一个性能表现优异的、更小而且更高效的网络。同时,这种方法还可以将多个任务特定策略合并为一个策略并应用到 Atari 游戏中,在实验中,这个多任务提炼代理的表现要比单任务老师或联合训练的 DQN 代理更优秀。