May, 2021

动态等比性:神经网络剪枝中的遗漏要素

TL;DR通过动态同构的视角,本文从裁剪作为初始化角度研究了神经网络裁剪,发现直接使用裁剪后的权重作为初始化不利于微调,回答了为什么更大的 fine-tuning 学习速率可以显著提高最终性能的疑问,并揭示了裁剪价值的谜团。