Dec, 2022

直通梯度和软阈值是稀疏训练所需的全部吗?

TL;DR采用 ST-3 方法,结合软阈值和直通渐变估计来训练神经网络,可以有效地减少计算复杂性和在单次训练周期内逐渐增加稀疏度率而获得 SoA 结果。