Nov, 2023

大规模神经架构的反向传播压缩:结构化激活剪枝

TL;DR通过在深度神经网络中采用结构化修剪和块稀疏性操作,目前的研究旨在通过减少激活值的内存消耗来减小GPU内存需求,从而降低大规模模型训练的要求并解决生态环境问题。