ICMLJun, 2021

用超网络重新组合强化学习构建块

TL;DR本文提出使用超网络结构来改善强化学习和 Meta-RL 算法中梯度估计和学习步骤方差的问题,以提高学习效率和最终性能。实验表明,该方法可在不同的任务和算法中得到一致的改进。