大数据学习的缓慢杀死
本文研究分布式学习场景中,M 台机器与参数服务器进行交互,以最小化公共目标函数。我们专注于异构情况,其中不同的机器可能从不同的数据分布中获取样本,设计出第一个本地更新方法,可以证明优于两种最突出的分布式基线:Minibatch-SGD 和 Local-SGD。我们的方法核心是缓慢的查询技术,我们将其定制为分布式环境,从而更好地缓解本地更新所引起的偏差。
Apr, 2023
本文研究了在凸损失函数和 $l_1$ 正则化惩罚下解决监督学习问题中快速消除特征的方法,该方法不是启发式的,只消除在解决学习问题后确保不存在的特征。我们的方法适用于支持向量机分类,逻辑回归和最小二乘等一类问题。我们在文本分类数据集上应用方法,观察到降维了,特别是在寻找非常稀疏的分类器时,降低了求解学习问题所需的计算工作量。这使我们可以立即扩展现有算法的范围,从而使我们能够运行以前无法处理的数据量。
Sep, 2010
提出一种基于统计检验的适应性方法,通过检测随机梯度下降算法的动态变化达到均衡状态后衰减学习率,解决了手动调参的繁琐问题,实现了类似于手动调参的性能并在多个深度学习任务中得到了验证。
Sep, 2019
本文介绍了一种名为 Csawg 的新方法,它使用更新经验来学习改进的参数更新方式, 并且使用步长规划的方式加速 Gradient Descent 在 ill-conditioned 和 non-convex 问题中的收敛速度。在经过实验验证后,我们的方法获得了比 Nesterov 加速 Gradient 更快的收敛速度,并且在 Rosenbrock 函数的测试中取得了比 Gradient Descent 更快和更准确的收敛效果。
Apr, 2022
提出了一种新的框架 — 后期停止法,通过延长训练过程来利用 DNNs 的内在鲁棒学习能力,逐渐缩小嘈杂数据集并去除高概率错误标记的样本,由此保留了训练集中大部分的清洁困难样本,得到了在标准模拟和真实世界嘈杂数据集上优于现有方法的实验结果。
Aug, 2023
研究非有界并且存在重尾分布的损失函数的快速学习率,并引入了两个新的条件,可以得到比 $O (n^{-1/2})$ 更快的学习速率,例如在 $k$- 均值聚类问题中得到的结果。
Sep, 2016
本文研究了梯度下降算法在光滑内核中的应用限制,提出了基于特征向量预处理的 EigenPro 迭代优化算法,通过注入小规模二阶信息以改善此限制,从而实现更好的收敛性能。
Mar, 2017
本文针对非参数回归问题中的一种梯度下降算法,提出了一种基于数据的提前停止策略,不需要保留数据或交叉验证,同时证明了该策略有较好的性能表现,可应用于 Sobolev 平滑性类等多种核函数类中。此外,本文还展现了该策略与核岭回归估计器的解路径之间的紧密联系。
Jun, 2013