具有可证明保证的 Ridge 回归特征选择

KDDJun, 2015

具有可证明保证的 Ridge 回归特征选择

Feature Selection for Ridge Regression with Provable Guarantees

Saurabh Paul, Petros Drineas

TL;DR提出了一种基于单个集合的谱稀疏化和杠杆分数采样的特征选择方法，用于分类问题和岭回归问题，并在固定设计的情况下，给出了两种方法的风险边界和实验结果，表明所提出的方法比现有的特征选择方法表现更好。

Abstract

We introduce single-set spectral sparsification as a deterministic sampling based feature selection technique for regularized least squares classification, which is the classification analogue to →

spectral sparsification feature selection ridge regression unsupervised learning risk bounds

发现论文，激发创造

具有可证明保证的线性 SVM 的特征选择

给定线性支持向量机（SVM），提出了一种特征选择算法，以实现有监督或无监督的学习。算法能够在确定性和随机化的情况下运行，并且在特征空间中的误差得到保证，从而保证了与完整的特征空间相当的概括能力。在真实世界的数据集上的实验结果表明，该方法比之前的最佳方法更加高效。

Jun, 2014

稀疏回归：可扩展的算法和实证表现

本文回顾了特征选择领域内应用最广的方法，重点关注其精度和误检探测率随着样本数量增加的表现，并对比了常用的 Lasso 正则化方法以外，不太为人所知的非凸罚函数方法。通过实证分析，我们发现整数规划方案及其布尔松弛具有更优的性能表现，但相应的计算成本也更高。考虑到准确率、假检率和计算时间等综合评估因素，本文揭示了一些不同的特征选择方案，为相关领域的研究提供了参考依据。

Feb, 2019

随机特征无 Ridge 回归

本文研究了具有随机特征和随机梯度下降的无脊椎回归的统计属性，探索了随机梯度和随机特征中因素的影响，特别是随机特征误差呈现双峰曲线。在理论结果的启发下，我们提出了一种可调节的核算法，优化核的谱密度。本研究架起了插值理论和实际算法之间的桥梁。

May, 2022

核岭回归的随机傅里叶特征：逼近界限和统计保证

本文通过研究谱矩阵近似的角度，给出了随机傅里叶特征的数量界和核岭回归的统计保障，而从核的杠杆函数中改进傅里叶空间的分布采样可获得提高的性能与更优的采样方案。

Apr, 2018

具有统计保证的快速随机核方法

本文章介绍了一种改进基于核方法的机器学习方法运行时间的方法，并提出了一个计算算法，该算法可以用来在不需要生成全核矩阵的情况下，对特征向量矩阵进行采样，并在统计表现和运行时间方面提供了新的保证。

Nov, 2014

广义谱方法的随机特征逼近

随机特征逼近是加速大规模算法中核方法的最流行技术之一，并提供了对深度神经网络分析的理论方法。我们分析了与随机特征相结合的一大类谱正则化方法的泛化性质，包括梯度下降等具有隐式正则化的核方法或 Tikhonov 正则化等明确方法。对于我们的估计器，我们在适当的源条件下定义的规则性类别（甚至包括不在再生核希尔伯特空间中的类别）上获得了最佳学习速率。这改进或完善了先前在特定核算法相关设置中获得的结果。

Aug, 2023

子模遇上谱：子集选择、稀疏逼近和字典选择的贪心算法

本研究通过分析子模函数的最大化和谱分析的见解，引入了子模性比率作为一种关键性质，研究了从大量随机变量中选择 k 个变量的问题，以实现对另一个感兴趣的变量的最佳线性预测，取得了这个问题方面最强的现有近似保证，并运用了该技术进行了实验和分析。

Feb, 2011

稀疏线性回归的特征自适应

本文研究高维统计中的稀疏线性回归问题，特别关注相关随机设计条件下的 Lasso 算法以及基于特征适应的算法，提供了可以自适应处理少量近似相关性的 Lasso 算法优化及多项式复杂度的改进，以实现在常数稀疏度和任意协方差 Σ 情况下的最优样本复杂度。

May, 2023

稀疏监督学习中的安全特征消除

本文研究了在凸损失函数和 $l_1$ 正则化惩罚下解决监督学习问题中快速消除特征的方法，该方法不是启发式的，只消除在解决学习问题后确保不存在的特征。我们的方法适用于支持向量机分类，逻辑回归和最小二乘等一类问题。我们在文本分类数据集上应用方法，观察到降维了，特别是在寻找非常稀疏的分类器时，降低了求解学习问题所需的计算工作量。这使我们可以立即扩展现有算法的范围，从而使我们能够运行以前无法处理的数据量。

Sep, 2010

Hilbert 空间上最小二乘回归的频谱算法的最优率

本文研究使用平方损失函数解决分离的希尔伯特空间回归问题，探讨了包括岭回归、主成分回归和梯度法等一类谱 / 正则化算法。在假设空间容量和目标函数的一般源条件下，我们证明了已研究算法的最优高概率收敛结果，并考虑了变种范数。因此，我们获得了具有最优速率的几乎确定的收敛结果。我们的结果改进并推广了先前的研究，填补了非可达情况的理论空白。

Jan, 2018