截断梯度稀疏在线学习

Jun, 2008

Sparse Online Learning via Truncated Gradient

John Langford, Lihong Li, Tong Zhang

TL;DR这篇论文提出了一种新方法，称为截断梯度 (truncated gradient)，可以在凸损失函数的在线学习算法中诱导稀疏性，该方法具有连续控制稀疏化程度的参数，类似于 $L_1$ 正则化方法，理论上可以证明小的稀疏化率仅会导致额外的小代价，并且在实践中取得了良好的效果。

Abstract

We propose a general method called truncated gradient to induce sparsity in the weights of online learning algorithms with →

发现论文，激发创造

通过减少信息交换的通信成本，提出了使用凸优化公式的随机梯度编码方法，该方法可以在多台机器上有效地解决大规模机器学习中的瓶颈问题，同时经过正则化逻辑回归，支持向量机和卷积神经网络的实验验证了该方法的有效性。

Oct, 2017

本文提出了一种称为平滑近端梯度方法的通用优化方法，它能够解决带有平滑凸损失和广泛结构稀疏诱导罚款的结构稀疏回归问题，通过 Nesterov 的一般平滑技术实现了比标准一阶法更快的收敛速度，比大多数广泛使用的内点法更可扩展。

Feb, 2012

该研究提出了一种贪心算法，Gradient Support Pursuit (GraSP)，以近似任意形式损失函数的稀疏极小值，适用于稀疏逻辑回归等问题，算法性能通过在合成数据上的数值模拟进行评估。

Mar, 2012

研究了深度神经网络的正则梯度下降算法，并通过量化约束集合的复杂度以及研究覆盖维度来探索正则化技术在加速训练、提高泛化性能以及学习更高效紧凑模型方面的优势。

Feb, 2018

本文提出了一种通用的优化方法 —— 平滑近端梯度法 (SPG)，可以在结构化的稀疏惩罚下解决任何光滑凸损失的结构化稀疏回归问题。此方法在性能和可伸缩性方面都具有很大优势，并在模拟实验和真实的遗传数据集上进行了验证。

May, 2010

使用重点理论工具，在 Wasserstein 空间中进行局部收敛分析和扰动镜像下降分析，通过将度量离散化并运行非凸梯度下降来解决衡量函数的稀疏性惩罚问题，实现全局优化算法，其复杂度与凸多项式相比在所期望的精度下具有 log（1/ε）的比例关系

Jul, 2019

提出了一种新颖、高效的分布式稀疏学习方法，可在高维度中随机分割观测数据，并在通信效率方面展现极佳的表现。

May, 2016

通过使用稀疏梯度下降的元学习方法，可以改善神经网络权重初始化的泛化能力，从而实现少量权重改变导致低泛化误差，并且这种选择性稀疏性机制使得元学习在 Few-shot 和 Continual 学习等问题上更加高效。

Oct, 2021

研究了深度学习模型过度参数化和随机梯度下降的泛化能力现象，探讨了稀疏恢复的情况，提出了一种相应的超参数化均方误差损失函数，证明了该函数的梯度下降可以收敛到最小 L1 范数的好近似解。

Dec, 2021

本文提出一种新颖的基于非可微惩罚项的 proximal 梯度方法来去除神经网络不重要的参数组，并针对两种结构性稀疏惩罚进行了权重 proximal 操作符导出，并证明了该方法的收敛性。同时，介绍了该方法在计算机视觉和自然语言处理中的应用。

Feb, 2021