Feb, 2021

稠密网络的价格变得稀疏:通过子空间偏移改善稀疏初始化网络的性能

TL;DR介绍了一种新的DCT加稀疏层架构,即使只剩下0.01%可训练的核参数,也能保持信息传递和可训练性;同时,此种新架构用於精简网络在初始化後的训练可达到极端稀疏度时的最高准确性。