ICLRMay, 2022

RLx2:零基础训练稀疏深度强化学习模型

TL;DR本文提出了一种基于梯度建网络拓扑演化的新型稀疏深度强化学习(DRL)训练框架 RLx2,通过动态容量回放缓冲器实现稀疏模型中的坚韧价值学习和效率拓扑探索,实现了 7.5~20 倍的模型压缩,同时保持不到 3% 的性能降低并减少 20~50 倍的 FLOPs 训练和推理开销。