使用敌对式训练和二阶信息进行神经网络的大批量训练

Oct, 2018

使用敌对式训练和二阶信息进行神经网络的大批量训练

Large batch size training of neural networks with adversarial training and second-order information

Zhewei Yao, Amir Gholami, Daiyaan Arfeen, Richard Liaw, Joseph Gonzalez...

TL;DR本文提出了一种基于 Ray 框架的新型自适应批量大小框架，以及一种使用二阶方法和对抗训练的新型自适应批量大小训练方案，该方法在多个神经网络和数据集上均实现了比现有解决方案更好的效果。

Abstract

The most straightforward method to accelerate stochastic gradient descent (SGD) computation is to distribute the randomly selected batch of inputs over multiple processors. To keep the distributed processors fully utilized requires commensurately growing the →

stochastic gradient descent batch size adaptive batch size ray framework neural networks

发现论文，激发创造

AdaBatch：用于训练深度神经网络的自适应批量大小

本研究发展一种新的训练方法，在训练过程中自适应地增加 batch size，以达到小 batch size 的收敛速率和大 batch size 的性能表现。实验结果表明，在多个网络模型中，采用自适应 batch size 训练能够显著提高算法性能，同时精度变化不超过 1％。

Dec, 2017

卷积网络的大批量训练

本文介绍了一种新的大批量训练算法：LARS，该算法采用分层自适应速率缩放，可使得尽管使用大批量训练，Alexnet 和 Resnet-50 的准确性不会降低。

Aug, 2017

大批次训练的并发对抗学习

本研究提出使用对抗学习 (adversarial learning) 技术来增加大批量训练 (large-batch training) 的批量大小，以克服随着批量大小的增加而降低的数据增强表现的问题，并通过 Concurrent Adversarial Learning (ConAdv) 方法来解决对抗学习中的时间成本问题，在 ImageNet ResNet-50 训练中成功将批量大小扩展到 96K，并在保持高精度的同时大幅提高了模型的训练效率。

Jun, 2021

精确的大型小批量随机梯度下降法：在 1 小时内训练 ImageNet

本文研究了分布式同步随机梯度下降算法在大规模数据训练中的应用，证明了通过采用新的学习率调整规则和温暖启动方法，大批量训练可以克服优化难题，取得和小批量相同的精度，实现了在支持多达 256 个 GPU 的硬件上，在一小时内使用 8,192 个图像的小批量对 ResNet-50 进行有效的训练。

Jun, 2017

分布式深度学习的扩展方法

该研究比较了同步和异步随机梯度下降的收敛性，针对 ImageNet 分类问题的训练，在 32 个节点以下异步 SGD 包括弹性平均和 gossiping 能更快收敛，而同步 SGD 在 100 个节点以下能更好地扩展。

Nov, 2016

AdaScale SGD：分布式训练的用户友好型算法

AdaScale SGD 是一种可靠地适应大批量训练学习率的算法，通过不断调整梯度方差，可以实现在宽范围的批量大小下加速训练。在机器翻译，图像分类，目标检测和语音识别任务中，它可以处理大批量训练，而不会降低模型质量，因为 AdaScale 的收敛性边界可以保持最终目标值，即使批量大小增加，迭代次数减少。这个算法引入了可忽略的计算开销和没有新的超参数，因此是实现大规模训练的有吸引力的选择。

Jul, 2020

SGD 超参数在自然训练中如何影响对抗鲁棒性？

通过实验观察 SGD 算法中学习率、batch size 和 momentum 三个重要超参数对神经网络训练精度及对抗鲁棒性的影响，并发现固定学习率和 batch size 比例的训练方式可以获得更好的泛化能力与保持较为稳定的抗干扰性能。

Jun, 2020

自适应批处理大小的自动推理：大批量 SGD

本文介绍了一种采用自适应 “大数据块” 随机梯度下降方案的方法，以维持梯度逼近的信噪比的稳定，从而实现自动学习率选择和避免步长衰减，并且不需要目标函数凸性的限制。

Oct, 2016

增加你的批量：更大批量训练有更好效果

本文提出一种基于批增广的优化算法，可以应用于深度学习的大批量 SGD 训练中，减少了必要的 SGD 更新数量，提高了训练速度和泛化能力。

Jan, 2019

随机梯度下降的大批量大小计算效率低下

研究增加小批量大小以减少神经网络训练时间所面临的挑战，并通过广泛的经验分析得出，增加批量大小超过一定点对于训练或测试损失的收敛时间没有减少，而这一点通常低于当前系统的容量，说明常用的大批量优化训练策略在无法充分利用所有可用的计算资源之前就会失败。

Nov, 2018