随机特征模型的隐式正则化
近期的机器学习进展通过使用过参数化的模型训练到接近训练数据的插值来实现。 通过双下降现象的展示,已经证明参数数量是模型复杂性和泛化能力的劣质指标。 这引发了一个问题,即了解参数化对这些模型的性能的影响。 本文以随机特征岭回归(Random Feature Ridge Regression)为例进行调查。
Mar, 2024
研究了在高维情况下,使用随机特征与岭回归相结合的方法在特征空间中实现核 Ridge 回归的近似,证明了欠拟合比过拟合更容易避免,展示了在满足特定谱条件和某些特征向量的超收缩性假设的情况下,所得到的错误随着自由参数的增加呈幂律下降的规律。
Jan, 2021
我们研究了随机特征岭回归(RFRR)的泛化性能,并提供了其测试误差的一般确定性等价物。具体而言,在一定的集中性质下,我们表明测试误差可以用一个闭式表达式来良好近似,该表达式仅依赖于特征映射的特征值。值得注意的是,我们的近似保证是非渐近的、乘性的,并且与特征映射的维度无关,允许无限维特征。我们预期这个确定性等价物在我们的理论分析之外广泛适用,并从各种真实和合成数据集上对其预测进行了实证验证。作为一个应用,我们根据谱和目标衰减的标准幂律假设导出了尖锐的超额误差率。特别地,我们提供了实现最优极小极大误差率所需特征数量的紧密结果。
May, 2024
在去中心化的核岭回归中,为了保证节点之间的一致性,通常会对特征系数施加约束,但是在许多应用中,不同节点上的数据在数量或分布上存在显著差异,因此需要能够生成不同随机特征的自适应和数据相关方法。针对这个关键难题,本文提出了一种新的去中心化核岭回归算法,该算法通过追求决策函数的一致性,实现了对节点上数据的灵活适应。经过严格的收敛性分析和数值验证,我们得出结论:在保持与其他方法相同的通信开销的同时,我们在六个真实世界数据集中平均提高了 25.5%的回归准确性。
May, 2024
本文研究了具有随机特征和随机梯度下降的无脊椎回归的统计属性,探索了随机梯度和随机特征中因素的影响,特别是随机特征误差呈现双峰曲线。在理论结果的启发下,我们提出了一种可调节的核算法,优化核的谱密度。本研究架起了插值理论和实际算法之间的桥梁。
May, 2022
本文在高维渐近极端条件下,对岭回归和正则化判别分析在密集随机效应模型中的预测风险进行了统一分析,并提供了两种方法的极限预测风险的明确和高效可计算的表达式。同时,揭示了岭回归和正则化判别分析各自的一些定性见解,本分析基于最近在随机矩阵理论领域的一些新进展。
Jul, 2015
本文研究了基于随机矩阵的核岭回归近似方法,证明了可以仅仅选择与统计维度成比例的投影维度来保持最小极值,从而实现了快速和极小极值的非参数回归估计。
Jan, 2015
本文通过研究谱矩阵近似的角度,给出了随机傅里叶特征的数量界和核岭回归的统计保障,而从核的杠杆函数中改进傅里叶空间的分布采样可获得提高的性能与更优的采样方案。
Apr, 2018
本论文提供了关于向量值随机特征(RF)学习的全面误差分析,为 RF 岭回归在输入输出设置下建立了理论,该方法直接分析了风险函数,避免随机矩阵理论中的浓度结果,主要结果包括在模型未规范化情况下向量值 RF 估计量的强一致性和在规范化设置下的极小极小收敛速度。
May, 2023