Jan, 2024

分布式随机网络蒸馏中的探索与反探索

TL;DR为了解决探索性问题,本文提出了一种改进的基于随机网络扰动的深度强化学习算法(DRND),通过提炼随机网络的分布和隐式引入伪计算,以改进奖励分配的精确度和鼓励更广泛的探索,有效地增强了探索过程,并在在线周期探索场景和离线任务中展现了更好的性能。