更多即更少：通过过度参数化诱导稀疏性

Dec, 2021

更多即更少：通过过度参数化诱导稀疏性

More is Less: Inducing Sparsity via Overparameterization

Hung-Hsu Chou, Johannes Maly, Holger Rauhut

TL;DR研究了深度学习模型过度参数化和随机梯度下降的泛化能力现象，探讨了稀疏恢复的情况，提出了一种相应的超参数化均方误差损失函数，证明了该函数的梯度下降可以收敛到最小 L1 范数的好近似解。

Abstract

In deep learning it is common to overparameterize neural networks, that is, to use more parameters than training samples. Quite surprisingly training the neural network via (stochastic) gradient descent leads to

deep learning neural network stochastic gradient descent sparse recovery compressed sensing

发现论文，激发创造

单隐藏层神经网络梯度流性质与线性激活函数的研究

通过研究神经网络的超参数化和过拟合对梯度下降算法鲁棒性的影响，我们证明了过度参数化会引入伪平衡点，阻碍梯度下降算法的收敛。

May, 2023

模型压缩中过参数化的可证益处：从双峰下降到神经网络修剪

本文分析了过参数化模型剪枝中的双重下降现象，提出了在某些情况下，训练大型模型再进行剪枝比仅使用已知信息更好的理论证明，同时也发现了重新训练的好处以及在线性和随机特征模型中已经存在这些现象，这进一步促进了高维分析工具的发展。

Dec, 2020

训练超参数化深度神经网络的改进分析

本文提供了一种改进的分析方法来探究（随机）梯度下降训练深度神经网络的全局收敛，该方法比之前的研究工作以更加温和的过度参数化条件确定了问题相关参数的大小，包括更紧密的梯度下限和更清晰的算法轨迹路径描述。

Jun, 2019

通过低维度学习动力学高效压缩超参数化深度模型

通过研究过度参数化的深度网络的学习动力学，我们揭示了各种体系结构的权重矩阵展现出低维结构，我们利用这些洞见通过减小中间层的宽度来压缩深度线性网络，实验证明这种压缩技术能够加速训练过程超过两倍，而不牺牲模型质量。

Nov, 2023

通过权重归一化实现强大的隐式正则化

本文研究了使用梯度下降与权重归一化进行训练的经过参数化的模型所具有的内在偏向性，并证明了权重归一化的方法可以在对角线性模型中具有稀疏解的内在偏向性。

May, 2023

迈向适度的过度参数化：为训练浅层神经网络提供全局收敛保证

本文探讨了神经网络的过度参数化现象对于梯度下降收敛至全域最优解所需的程度及类型，并结合实验结果以浅层神经网络和平滑激活函数为例，证明了只需参数数量高于数据集大小的平方根时，梯度下降随机初始化即可收敛至全域最优解。

Feb, 2019

过度参数化梯度下降对度量的稀疏优化

使用重点理论工具，在 Wasserstein 空间中进行局部收敛分析和扰动镜像下降分析，通过将度量离散化并运行非凸梯度下降来解决衡量函数的稀疏性惩罚问题，实现全局优化算法，其复杂度与凸多项式相比在所期望的精度下具有 log（1/ε）的比例关系

Jul, 2019

稀疏双峰下降：网络修剪加剧过拟合

我们的研究发现，在通过网络修剪增加模型的稀疏性时，测试性能会出现一个稀疏双下降现象，即测试性能先下降，然后上升并达到顶峰，最后再次下降。我们提出了一个新的学习距离解释，它可以很好地反映稀疏双下降曲线，并比最小值平坦性更好地反映泛化能力，此外，我们还发现在稀疏双下降的情况下，中彩票假设的优势并不总是存在。

Jun, 2022

深度超参数低秩学习与调整中的可压缩动力学

通过利用数据的固有低维结构和模型参数的可压缩动力学，我们展示了优化和泛化方面的超参数化的好处，而无需增加计算负担。在深度低秩矩阵补全和微调语言模型的实践中，我们证明了这种方法的有效性，同时保留了超参数化对性能的优势。

Jun, 2024

截断梯度稀疏在线学习

这篇论文提出了一种新方法，称为截断梯度 (truncated gradient)，可以在凸损失函数的在线学习算法中诱导稀疏性，该方法具有连续控制稀疏化程度的参数，类似于 $L_1$ 正则化方法，理论上可以证明小的稀疏化率仅会导致额外的小代价，并且在实践中取得了良好的效果。

Jun, 2008