Dec, 2020

通过点对点蒸馏实现鲁棒的领域随机增强学习

TL;DR此篇研究论文提出了一种名为P2PDRL的强化学习方法,通过使用同行之间的在线蒸馏策略来缓解来自随机域的高梯度估计方差和不稳定学习过程的问题,实验结果表明P2PDRL能够使学习更加鲁棒,泛化性能也更加优越。