May, 2022

RLx2:零基础训练稀疏深度强化学习模型

TL;DR本文提出了一种基于梯度建网络拓扑演化的新型稀疏深度强化学习(DRL)训练框架RLx2,通过动态容量回放缓冲器实现稀疏模型中的坚韧价值学习和效率拓扑探索,实现了7.5~20倍的模型压缩,同时保持不到3% 的性能降低并减少20~50倍的FLOPs训练和推理开销。