随机特征无 Ridge 回归

IJCAIMay, 2022

Ridgeless Regression with Random Features

Jian Li, Yong Liu, Yingying Zhang

TL;DR本文研究了具有随机特征和随机梯度下降的无脊椎回归的统计属性，探索了随机梯度和随机特征中因素的影响，特别是随机特征误差呈现双峰曲线。在理论结果的启发下，我们提出了一种可调节的核算法，优化核的谱密度。本研究架起了插值理论和实际算法之间的桥梁。

Abstract

Recent theoretical studies illustrated that kernel ridgeless regression can guarantee good generalization ability without an explicit regularization. In this paper, we investigate the statistical properties of ridgeless regression with →

kernel ridgeless regression random features stochastic gradient descent double-descent curve spectral density

发现论文，激发创造

广义谱方法的随机特征逼近

随机特征逼近是加速大规模算法中核方法的最流行技术之一，并提供了对深度神经网络分析的理论方法。我们分析了与随机特征相结合的一大类谱正则化方法的泛化性质，包括梯度下降等具有隐式正则化的核方法或 Tikhonov 正则化等明确方法。对于我们的估计器，我们在适当的源条件下定义的规则性类别（甚至包括不在再生核希尔伯特空间中的类别）上获得了最佳学习速率。这改进或完善了先前在特定核算法相关设置中获得的结果。

Aug, 2023

Just Interpolate: 核 “无岭” 回归能够泛化

使用不带显式正则化的核 “无岭” 回归及非线性核函数能完美拟合训练数据，本文分离了最小范数插值解的隐含正则化现象，这是由于输入数据的高维性、核函数的曲率以及数据的几何特性所导致的，并给出了一种数据相关的外样本误差的上界估计。

Aug, 2018

随机特征学习的泛化性能

本研究探讨了统计学习框架下随机特征稀疏化岭回归的泛化性质，结果显示仅需 O（根号 n*log n）个随机特征即可实现 O（1 / 根号 n）的学习界限，优于之前的提法；此外我们证明了一系列快速学习速率及其潜在影响，研究证明了及格自适应分配随机特征的可行性，这有助于降低计算复杂度，并保持最优泛化特性。

Feb, 2016

核岭回归的随机傅里叶特征：逼近界限和统计保证

本文通过研究谱矩阵近似的角度，给出了随机傅里叶特征的数量界和核岭回归的统计保障，而从核的杠杆函数中改进傅里叶空间的分布采样可获得提高的性能与更优的采样方案。

Apr, 2018

关于无 Ridge 回归中双峰下降峰的普适性

证明了在 ridgeless 线性回归中，标签噪声导致的预期平均平方泛化误差的非渐进分布独立下界，并推广了类似的已知结果到过参数化（插值）区域，并适用于具有几乎定概率的全秩特征矩阵的广泛输入分布类，包括根据随机深度神经网络构造的特征映射。

Oct, 2020

SGD 和随机特征的学习

本文研究了基于随机梯度下降与小批量和随机特征的非参数统计学习估计器，利用其定义了一种近似的核方法，并通过得出最优有限样本限制来探究其学习性质。

Jul, 2018

随机特征模型的隐式正则化

本文探讨了随机特征模型和核岭回归之间的联系，并发现了有限 RF 取样的隐式正则化效应，同时对比了使用 KRR 预测器的风险和使用 RF 预测器的平均风险并获得了它们之间差异的明确界限，最终在实验中发现了平均 λ-RF 预测和 tilde λ-KRR 预测器之间的极好一致性。

Feb, 2020

随机特征和核方法的泛化误差：超收缩和核矩阵集中

研究了在高维情况下，使用随机特征与岭回归相结合的方法在特征空间中实现核 Ridge 回归的近似，证明了欠拟合比过拟合更容易避免，展示了在满足特定谱条件和某些特征向量的超收缩性假设的情况下，所得到的错误随着自由参数的增加呈幂律下降的规律。

Jan, 2021

具有可证明保证的 Ridge 回归特征选择

提出了一种基于单个集合的谱稀疏化和杠杆分数采样的特征选择方法，用于分类问题和岭回归问题，并在固定设计的情况下，给出了两种方法的风险边界和实验结果，表明所提出的方法比现有的特征选择方法表现更好。

Jun, 2015

流式稀疏回归的统计学

本文介绍一种基于稀疏近似的随机梯度下降算法，该算法能够在类似 Lasso 的条件下表现良好，并且无需更多的计算资源。在实验中，我们发现我们的方法在真实数据和模拟数据上均表现出色。

Dec, 2014