本研究旨在探讨早停止和随机子抽样方法在最小二乘回归设置中的结合,提出了一种基于早停止和随机子抽样的随机迭代正则化形式,并分析了其统计和计算性质。
Oct, 2015
本文首次提出一种核 Nystr"om 逼近算法,它在所有核矩阵中都具有可证明的准确性,且其运行时间与训练点数成线性关系,并利用快速递归采样方案,实现了基于支撑点的快速采样,相较于常用技术如均匀采样 Nystr"om 逼近和随机 Fourier 特征方法,找到更精确、低秩的核逼近方法的速度更快。
May, 2016
本研究论文提出了一种基于内核的机器学习技术在大规模数据集上处理离散选择建模时所面临的挑战,通过引入 Nyström 近似方法来解决存储需求和涉及参数数量的问题。研究还评估了不同优化技术在所提出的 Nyström 模型上的效率,并发现 k-means Nyström KLR 方法与 L-BFGS-B 和 Adam 优化方法相结合,在处理超过 200,000 个观测值的数据集时保持了稳健的性能。
Feb, 2024
该论文提出了一种基于线性时间算法的方法来精确近似统计杠杆分数,以选取代表性的子样本,运用于 Nyström 近似中,以提高预测准确性和减少计算成本。
Mar, 2021
本文设计并数学分析了一种采样算法,用于实现大数据的正则化损失最小化问题,指出如果假设的范数和数据增加时正则化效果不会变弱,那么小规模均匀采样有很高概率成为一个 coreset,尤其在逻辑回归和软间隔支持向量机等方面的表现好。
May, 2019
该研究提出了一种针对分类的监督式 Nyström 方法,通过负边际标准选择向量,创造出适用于数据分类的显式特征映射。实验表明,该方法能够显著提高分类性能,同时减少所需特征数量。
May, 2018
使用随机化技术推导出半定规划的随机梯度算法,通过采用子采样来降低每次迭代的计算成本,从而控制迭代的代价和总迭代次数的平衡,算法的复杂度与解决方案的复杂度成正比,该算法在统计学习的某些大规模问题上表现良好。
Mar, 2008
本文对来自于 coreset 和 optimal subsampling 文献的多个 logistic regression 方法进行了直接比较,并发现了它们有效性上的不一致性,很多情况下这些方法都没有超过简单的均匀抽样。
Jan, 2023
本文提出了一种针对逻辑回归模型的快速子抽样算法,利用优化方法降低计算时间,通过理论和实验分析验证其性能。
Feb, 2017
本文研究了梯度下降算法在光滑内核中的应用限制,提出了基于特征向量预处理的 EigenPro 迭代优化算法,通过注入小规模二阶信息以改善此限制,从而实现更好的收敛性能。
Mar, 2017