随机特征和核方法的泛化误差:超收缩和核矩阵集中
本研究探讨了统计学习框架下随机特征稀疏化岭回归的泛化性质,结果显示仅需 O(根号 n*log n)个随机特征即可实现 O(1 / 根号 n)的学习界限,优于之前的提法;此外我们证明了一系列快速学习速率及其潜在影响,研究证明了及格自适应分配随机特征的可行性,这有助于降低计算复杂度,并保持最优泛化特性。
Feb, 2016
本文探讨了随机特征模型和核岭回归之间的联系,并发现了有限 RF 取样的隐式正则化效应,同时对比了使用 KRR 预测器的风险和使用 RF 预测器的平均风险并获得了它们之间差异的明确界限,最终在实验中发现了平均 λ-RF 预测和 tilde λ-KRR 预测器之间的极好一致性。
Feb, 2020
随机特征逼近是加速大规模算法中核方法的最流行技术之一,并提供了对深度神经网络分析的理论方法。我们分析了与随机特征相结合的一大类谱正则化方法的泛化性质,包括梯度下降等具有隐式正则化的核方法或 Tikhonov 正则化等明确方法。对于我们的估计器,我们在适当的源条件下定义的规则性类别(甚至包括不在再生核希尔伯特空间中的类别)上获得了最佳学习速率。这改进或完善了先前在特定核算法相关设置中获得的结果。
Aug, 2023
本文介绍了核方法在机器学习问题中的应用,提到了采用随机傅里叶特征解决大规模数据集问题的方法,并给出了更好的误差界限及嵌入方式的理解、近似误差、在某些机器学习方法中的使用,同时指出了该特征的两种变体中,更常用的一种在高斯核中具有严格更高的方差且具有更糟糕的界限的令人惊讶的事实。
Jun, 2015
本论文研究了在球面上进行方差损失下的未知函数 f * 的学习问题,并研究了神经切向核模型和 Rahimi-Recht 的随机特征模型等两种流行的模型,以及核岭回归。同时,论文探讨了样本数量有限或由于关于度数和样本数的适当估计而未能实现最优化性能时的情况,以及核方法随机选取核函数时的情况。
Apr, 2019
近期的机器学习进展通过使用过参数化的模型训练到接近训练数据的插值来实现。 通过双下降现象的展示,已经证明参数数量是模型复杂性和泛化能力的劣质指标。 这引发了一个问题,即了解参数化对这些模型的性能的影响。 本文以随机特征岭回归(Random Feature Ridge Regression)为例进行调查。
Mar, 2024
本文考虑使用随机特征空间,在测度无限趋近于无限,特征维度和样本量趋近于无穷大的情况下,利用结果回归模型和双下降现象等关键词解释深度学习模型中的奇妙现象。
Aug, 2019
神经网络架构、随机初始化权重、神经网络高斯过程核、再生核希尔伯特空间、逼近误差是该研究论文的关键词,论文提出了一种在无限宽度限制下具有随机初始化权重的神经网络架构,它等价于一个具有高斯随机场协方差函数的神经网络高斯过程核,同时证明了该神经网络架构可以逼近由该核定义的再生核希尔伯特空间中的函数。实验结果验证了该理论发现的可行性。
Apr, 2024
本文研究了具有随机特征和随机梯度下降的无脊椎回归的统计属性,探索了随机梯度和随机特征中因素的影响,特别是随机特征误差呈现双峰曲线。在理论结果的启发下,我们提出了一种可调节的核算法,优化核的谱密度。本研究架起了插值理论和实际算法之间的桥梁。
May, 2022
用随机矩阵理论和自由概率的基本工具简要推导了多种高维岭回归模型的训练和泛化性能,在物理学和深度学习背景的读者中提供了这些主题的介绍和评论。通过自由概率的 $S$ 变换特性,从代数的几行直接获得训练和泛化误差的解析公式,能够直观地识别模型性能的幂律缩放来源。计算了广义类随机特征模型的泛化误差,发现在所有模型中,$S$ 变换对应于训练 - 测试泛化差距,并提供了广义交叉验证估计器的类比。利用这些技术,对具有结构化协变量的非常通用的随机特征模型得到了细粒度的偏差 - 方差分解。这些新颖结果使我们能够发现随机特征模型的缩放区域,在超参数设置中特征的方差限制了性能。我们还演示了随机特征模型中异向权重结构如何限制性能,并导致超参数设置中有限宽度修正的非平凡指数。我们的结果扩展并提供了对早期神经缩放定律模型的统一视角。
May, 2024