Feb, 2021

用于深度学习的结构稀疏性诱导自适应优化器

TL;DR本文提出一种新颖的基于非可微惩罚项的 proximal 梯度方法来去除神经网络不重要的参数组,并针对两种结构性稀疏惩罚进行了权重 proximal 操作符导出,并证明了该方法的收敛性。同时,介绍了该方法在计算机视觉和自然语言处理中的应用。