- 一种基于双重样本回收方法的高效有限差分逼近
我们在本文中提出了一种双重样本回收方法,用于估计随机梯度,进而获得最优有限差分估计器,分析了其偏差、方差和均方误差,并在数值实验中应用该估计器,结果表明其与理论一致性和鲁棒性在小样本大小情况下尤为突出。
- 突破随机优化问题中的重尾噪声障碍
我们针对具有结构密度的重尾噪声的随机优化问题展开研究,证明在随机梯度具有有限阶矩(α ∈ (1, 2])时,可以获得比 Ο(K^(-2 (α - 1)/α)) 更快的收敛速率,而且噪声范数可以有无界期望。为实现这些结果,我们使用平滑的中值均 - 在线分布式学习与量化有限时间协调
本文介绍了一种基于 P2P 通信的分布式在线学习算法,允许使用随机梯度并使用有限时协调协议来将本地训练模型进行聚合运算,以适应隐私、安全或成本限制等的数据分布式情境。并通过逻辑回归任务的实验结果来验证该算法的性能。
- 自适应异步更新的容错分散式学习
研究提出了一种全分散的 DSGD-AAU 算法,通过自适应确定每个工作者与多少邻居工作者进行通信,实现了线性加速收敛,实验结果验证了理论结果。
- 基于平衡数制的联邦边缘学习的无线计算
本研究提出了一种数字无线计算方案,用于实现联合边缘学习的连续值(模拟量)聚合,利用该方案对局部随机梯度进行编码,通过非相干接收机和自适应绝对最大值的概念,实现了优异的测试准确度。
- ICLR小批量 SGD 与局部 SGD 洗牌:紧密收敛界与进一步研究
研究分布式学习中的本地 SGD 和基于随机梯度的优化方法,通过随机梯度下降的方案,降低了随机抽样带来的估计偏差和方差,提高了模型的训练效率,实验表明,该方案的效果比替代方案更好。
- EMNLPARCH: 高效具有缓存的对抗正则训练
提出 ARCH 方法,与传统方法相比较大地减小计算负担,并对自然语言处理中的一些任务进行了评估。
- 可微退火重要性采样与梯度噪声的风险
提出了 Differentiable AIS(DAIS)算法,是 AIS 算法的一种变种,具备可导性,并能够进行小批量梯度。DAIS 在贝叶斯线性回归问题中是一致的,并提供亚线性收敛率。然而,针对大规模数据集的随机 DAIS 可能无法达到后 - 分布式一阶方法优化的通用框架
本文研究分布式最优化问题,特别关注分布式的梯度方法,针对机器学习和信号处理等领域的实际场景给出了有效的应用方案。
- AAAI适应性梯度方法用于约束凸优化和变分不等式问题
本文提出了 AdaACSA、AdaAGD + 等新的自适应一阶优化算法,以加速受限制的凸优化问题中的收敛速度,同时针对平滑和不平滑函数,实现几乎最优的收敛速率;同时,通过自动调整每个坐标学习率,这些算法不需要固定事先知道目标函数的参数化,是 - 马尔可夫分数攀登:KL (p||q) 变分推理
本文介绍了一种可靠的使用随机梯度下降最小化包含 KL 散度的简单算法 Markovian score climbing (MSC),它以不偏的方式收敛于包含 KL。对贝叶斯 probit 回归进行分类以及针对金融数据的随机波动率模型演示了 - 探索激进,更新保守:变步长缩放的随机极限梯度法
本研究通过调整双步长外推梯度算法的探索步骤与更新步骤的时间尺度,解决了使用随机梯度时基本版外推梯度算法的发散问题,并在误差界条件下推导出了尖锐的收敛速率。
- ICML通过历史梯度辅助批大小调整用于方差减小算法
本文提出了一种适用于 Variance-reduced algorithms 的新型批量大小适应方案,通过历史随机梯度调整批量大小,避免了回溯线性搜索的步骤,有效地减少了 SVRG 和 SARAH/SPIDER 算法的复杂度,并开发了新的收 - 准蒙特卡罗变分推断
本文提出了基于 Quasi-Monte Carlo 采样的方差减少方法,有效地提高了 Monte Carlo gradient estimator 的 MCVI 性能,并通过实验验证了该方法。
- 随机条件梯度方法:从凸优化到子模最大化
该论文提出了基于随机条件梯度方法的优化问题求解算法,用于解决大规模维度下的凸函数、连续子模型等多种问题,并证明了当问题维度高时,该方法较与传统的随机梯度下降法更加稳定,同时计算时间复杂度也得到了有效降低。
- 用随机梯度逃离鞍点
本文研究了在某些非凸机器学习模型中,随机梯度沿负曲率方向的方差,并展示了这些方向上的随机梯度表现出强烈的分量;此外,本文提出了一种新的假设,根据这个假设,注入显式同方差噪声的普通随机梯度下降可以成功地替代梯度下降逃脱鞍点;最后,本文提出了基 - ICML并非所有样本都是相等的:使用重要性采样的深度学习
本研究提出了一种基于重要性采样的计算优化方案,该方案能够减少深度神经网络训练过程中冗余计算,提升模型的训练效果并有效降低损失。实验结果显示,该方案能够在相同的时间预算下,将训练损失降低一个数量级,并提高测试误差 5%至 17%。
- 镜像 Langevin 动力学
研究了从受限分布中采样的问题,提出了一种统一的框架来导出新的一阶采样方案,并应用于 Dirichlet posteriors 中,证明了第一阶算法实现了收敛性,最后在真实数据集上报告了有希望的实验结果。
- 可扩展的多分类高斯过程分类:基于期望传播
本文介绍了一种期望传递(Expectation Propagation,EP)方法,用于具有高斯过程的多类别分类,可以适应大规模数据集。此方法可以通过随机梯度和小批次进行有效的培训,并且可以在数据实例数量 N 上进行计算成本,而不受其影响。 - ICML剖析 Adam:随机梯度的符号、大小和方差
研究表明,ADAM 优化器在深度学习中非常流行,但是对于泛化效果差的问题,将方差适应应用到 SGD 中会出现一种新的方法。