流式稀疏回归的统计学

Dec, 2014

The Statistics of Streaming Sparse Regression

Jacob Steinhardt, Stefan Wager, Percy Liang

TL;DR本文介绍一种基于稀疏近似的随机梯度下降算法，该算法能够在类似 Lasso 的条件下表现良好，并且无需更多的计算资源。在实验中，我们发现我们的方法在真实数据和模拟数据上均表现出色。

Abstract

We present a sparse analogue to stochastic gradient descent that is guaranteed to perform well under similar conditions to the lasso. In the linear regression setup with →

sparse analogue stochastic gradient descent linear regression irrepresentable noise features streaming algorithms

发现论文，激发创造

稀疏线性回归的特征自适应

本文研究高维统计中的稀疏线性回归问题，特别关注相关随机设计条件下的 Lasso 算法以及基于特征适应的算法，提供了可以自适应处理少量近似相关性的 Lasso 算法优化及多项式复杂度的改进，以实现在常数稀疏度和任意协方差 Σ 情况下的最优样本复杂度。

May, 2023

流式稀疏高斯过程近似

本文提出了一种新的基于高斯过程概率模型的流数据部署方法，包括学习超参数和优化伪输入位置，并使用合成和真实数据集进行评估。

May, 2017

高维数据的稀疏表示 Lasso 型恢复

本文主要研究了在高维数据下 Lasso 作为一种正则化和变量选择技术的一些性质，特别关注了 Lasso 在松弛 irrepresentable 条件之后的一些表现，包括一些适用于固定设计的条件以及一些收敛性的结果。最后，文章通过天体物理学中相邻频率的检测问题进行了结果论证。

Jun, 2008

随机特征无 Ridge 回归

本文研究了具有随机特征和随机梯度下降的无脊椎回归的统计属性，探索了随机梯度和随机特征中因素的影响，特别是随机特征误差呈现双峰曲线。在理论结果的启发下，我们提出了一种可调节的核算法，优化核的谱密度。本研究架起了插值理论和实际算法之间的桥梁。

May, 2022

基于流数据的工具变量回归的随机优化算法

通过将问题视为条件随机优化问题，我们开发并分析了工具变量回归算法。在最小二乘工具变量回归的背景下，我们的算法既不需要矩阵求逆也不需要小批量处理，并为使用流数据进行工具变量回归提供了完全的在线方法。当真实模型是线性的时，对于任意的正数 iota，在具有两个样本和一个样本估计器的情况下，我们推导出期望意义下的收敛速度，分别为 O (log T/T) 和 O (1/T^(1-iota))，其中 T 是迭代次数。重要的是，在具有两个样本估计器的情况下，我们的方法避免了显式建模和估计混淆因子与工具变量之间的关系，展示了该方法相对于基于重定义问题为极小化极大化优化问题的最近工作的优势。数值实验验证了理论结果。

May, 2024

稀疏回归：可扩展的算法和实证表现

本文回顾了特征选择领域内应用最广的方法，重点关注其精度和误检探测率随着样本数量增加的表现，并对比了常用的 Lasso 正则化方法以外，不太为人所知的非凸罚函数方法。通过实证分析，我们发现整数规划方案及其布尔松弛具有更优的性能表现，但相应的计算成本也更高。考虑到准确率、假检率和计算时间等综合评估因素，本文揭示了一些不同的特征选择方案，为相关领域的研究提供了参考依据。

Feb, 2019

高维随机优化与稀疏统计恢复：一种最优算法

研究了基于 Nesterov 的对偶平均算法的随机优化算法，在预期损失是强凸的且最优解是（近似）稀疏的问题上进行优化，证明了在局部 Lipschitz 损失下，在 T 轮迭代后，我们的解决方案的误差最多为 O（（slogp）/T），并确立了我们的收敛率是最佳的，且在数值模拟中通过对最小二乘回归问题进行几个基准线的比较，证实了我们方法的有效性。

Jul, 2012

图稀疏逻辑回归

本文介绍了一种新的分类算法 Graph-Sparse Logistic Regression，适用于在图形上具有稀疏但相互连接的支持的情况。我们在生物信息学的蛋白质组学数据和互作图方面探索了这种技术，并提供了开源软件包 GSLR。

Dec, 2017

高维广义线性模型中基于流数据的自适应无偏 SGD

在线统计推断使得实时分析顺序采集的数据成为可能，本文引入了一种针对高维广义线性模型的在线推断新方法，通过在每次新增数据到达时更新回归系数估计和其标准误差，与现有方法相比，该方法以单次传递模式运行，大大降低了时间和空间复杂度。方法的核心创新在于针对动态目标函数设计的自适应随机梯度下降算法，结合了一种新型的在线去偏过程，能够在有效控制由动态变化的损失函数引入的优化误差的同时，保持低维度的摘要统计量。我们的方法，即近似去偏套索（ADL），不仅减轻了有界个别概率条件的需求，而且显著提高了数值性能。数值实验证明了所提出的 ADL 方法在各种协方差矩阵结构下一致表现出鲁棒性。

May, 2024

自适应特征选择：基于 RIP 的在线稀疏线性回归的计算有效性

本文旨在设计一个在线学习算法，使其具有次线性失望成本并且具有计算效率，以适应在线稀疏线性回归问题。通过利用数据矩阵满足受限等距性质的假设，针对两个问题变体，证明了这个假设可以导致计算效率高的在线学习算法。第一个变体中，真实标签根据带有加性高斯噪声的稀疏线性模型生成，而在第二个变体中，真实标签由对手选择。

Jun, 2017