IJCAIJun, 2020

双重策略蒸馏

TL;DR本文提出了一种双学习者的框架,名为双重策略蒸馏(DPD),其中两个学习者在同一环境中运行,以探索环境的不同方面并相互提取知识以增强他们的学习,并对几个连续控制任务进行实验,表明该框架可以在没有使用昂贵的教师模型的情况下,在具有学习基础的代理和函数逼近的情况下获得优越的性能。