- 在线学习与信息指数:关于批次大小和时间 / 复杂度权衡的重要性
通过研究在具有各向同性协变量的多指标目标函数上使用一遍随机梯度下降法(SGD)训练两层神经网络的迭代时间和批次大小之间的影响,我们揭示了最佳批次大小对于缩短迭代时间的优化函数,同时不改变总样本复杂性,并通过 “相关损失 SGD” 来克服此基 - 优化学习率和批次大小缩放中的涌现现象
Adam style 优化器中,最佳学习率和批量大小之间存在一种缩放规律,通过理论分析和实验验证了这种规律。
- SPEAR:联邦学习中批量的精确梯度反演
提出了第一个可以准确重建批量大小为大于 1 的全批量的算法,并通过 ReLu 诱导的梯度稀疏性来过滤错误样本,具有高效的 GPU 实现,能够准确恢复小于 25 个元素的批量,适用于大型网络。
- 使用常数和衰减的学习率的随机梯度下降的迭代和随机一阶预言机复杂度
使用常数或递减的学习率的随机梯度下降法(SGD)与关键的批次大小能够最小化深度学习中的非凸优化的随机一阶复杂性,并且与现有的一阶优化器相比较具有实用性。
- 批处理大小对比自我监督语音表示学习的影响
研究表明,在语音领域中,基于批量大小进行的基础模型预训练可显著提高模型质量,但需注意稳定性和有效性的界限,同时需要关注批量大小和迭代次数两个因素对预训练模型质量的影响,此研究对于选取有效的训练条件以及在自监督学习中以固定数据量进行基准测试提 - 子采样不是魔法:大批量训练对差分隐私随机优化的作用
研究了批量大小对区分隐私随机梯度下降(DP-SGD)中的总梯度方差的影响,旨在理论上解释大批量大小的有用性。发现 DP-SGD 的总梯度方差可以分解为子抽样引起的方差和噪声引起的方差,并证明在迭代次数无限的极限情况下,噪声引起的方差与批量大 - 利用连续时间控制和摄动理论解锁最佳批处理大小日程
我们推导了随机梯度下降和类似算法的最优批次大小计划,通过近似离散参数更新过程为一族随机微分方程,进而使用学习率展开进行优化处理。我们应用这些结果于线性回归任务中。
- 从预文本到目的:批自适应自监督学习
本文研究自我监督对比学习中的两个关键因素:批大小和预设任务,并提出了一种自适应的批融合技术,通过降维和重构批数据,使以前孤立的个体数据能够通过嵌入层在批内进行通信,随着训练进行,自适应地增强自我监督特征编码能力。通过在 ImageNet-1 - DYNAMITE:用于带有静态和流式数据集的联邦学习的小批量大小和聚合频率的动态相互作用
通过新型分析模型和优化算法,本文研究了联邦学习中批大小和聚合频率的相互作用对收敛性、成本和完成时间之间的权衡,并设计了一种高效的批配置算法。实验结果表明,该方法在离线和在线情况下均具有优越性。
- 小批次深度强化学习
在价值导向的深度强化学习中,回放记忆中的批大小参数指定了每次梯度更新要采样多少转换。尽管在提出新算法时通常不会调整此值,但它对于学习过程非常关键。在这项工作中,我们进行了一项广泛的实证研究,表明减小批大小可能导致许多显著的性能提升;这令人惊 - 随机梯度下降的不同制度
通过对教师 - 学生感知器分类模型的研究,我们在 B-η 平面上获得了一个相图,分为三个动力学相:(i) 由温度控制的噪声主导的 SGD,(ii) 由大步长主导的 SGD 和 (iii) GD,这些不同相还对应着不同的泛化误差区域。有趣的是 - SGD 批大小对自编码器学习的影响:稀疏性,锐度和特征学习
利用随机梯度下降 (Stochastic Gradient Descent, SGD) 算法研究了在正交数据上训练具有线性或 ReLU 激活函数的单神经元自编码器的动力学。我们发现对于这个非凸问题,使用恒定步长的随机初始化 SGD 算法可以 - 随机梯度下降的非凸优化中批处理大小与所需步数的关系
随机梯度下降是最简单的深度学习优化器之一,该论文通过蒙特卡洛方法对其进行了收敛性分析,并证明了使用 Armijo 线搜索的随机梯度下降在非凸优化中的性能优于其他深度学习优化器,同时还发现了批量大小对训练的影响,批量大小越大,需要的步数越少, - 如何扩展您的 EMA
在存在模型 EMA 的优化中,我们提供了一个缩放规则,并证明其在各种架构、优化器和数据模态下的有效性,同时还展示了模型 EMA 对目标模型优化的贡献,使我们能够在小批量和大批量训练下使用 EMA 基于伪标记和自监督学习的方法,以最佳化 6 - 绿色 AI 批处理 — 基于推理的探索性研究
研究了输入批处理对计算机视觉的五个全面训练的神经网络的能源消耗和响应时间的影响,结果表明批处理对这两个指标都有显著影响。此外,通过过去十年的能源效率和准确性时间线,发现能源消耗上升速度比准确性快得多,质疑了这种发展的必要性。
- SGD 的加速动量:何时及为何加速?—— 一个实证研究
通过对比带动量的随机梯度下降(SGDM)和不带动量的随机梯度下降(SGD)的表现,发现动量加速与突然的尖峰有关,而动量的作用是防止或推迟尖峰的发生,并揭示了动量、学习率和批次大小之间的相互作用,可以加速 SGDM 的性能。
- 超越隐性偏见: SGD 噪声在在线学习中的无关性
通过对图像和语言数据的广泛实证分析,我们表明在在线学习中,大的学习速率和小的批次大小并不能为 SGD 带来任何隐式偏差优势。
- SGD 的精确均方线性稳定性分析
本文推导出了随机梯度下降法 (SGD) 的稳定性阈值的显式表达式,并给出了与批量大小相关的最简单的必要稳定性条件。
- 小批量处理对二阶优化器的泛化性能有所改善
深度神经网络的训练对计算资源消耗较大,为了提高性能,机器学习科学家通常使用随机一阶及二阶优化方法,通过经验研究发现,训练中的批大小对方法的最大准确率有显著影响,并且二阶优化方法在特定批大小下表现出更低的方差,可能需要更少的超参数调整,从而减 - 拜占庭 - 鲁棒分布式学习的最佳批量大小
研究了在固定梯度计算次数的情况下,当存在拜占庭式攻击时,Byzantine-robust distributed learning 中的最佳批处理大小应该增加,提出了一种新的 BRDL 方法 ByzSGDnm,可以在大批处理案例中减轻模型准