我们可以通过难样本学得更好吗？

Apr, 2023

我们可以通过难样本学得更好吗？

Can we learn better with hard samples?

Subin Sahayam, John Zakkam, Umarani Jayaraman

TL;DR本研究提出一种新型的深度学习算法，该算法利用高误差 mini-batch 学习聚焦于欠表示的样本和复杂模式，并在多个公认数据集上测试，表明其相对于传统 mini-batch 训练方法能够显著提高测试准确性和加速收敛。

Abstract

In deep learning, mini-batch training is commonly used to optimize network parameters. However, the traditional mini-batch method may not learn the under-represented samples and complex patterns in the data, lead

deep learning mini-batch training network optimization loss optimization neural networks

发现论文，激发创造

重新审视深度神经网络的小批量训练

本文研究了基于小批量样本随机梯度优化的现代深度神经网络训练中，不同批量大小对测试性能和泛化性能的影响，并指出使用小批量训练可以提供更稳定和可靠的结果。

Apr, 2018

不使用大型小批次，使用本地化 SGD

本文提出了一种后局部随机梯度下降（SGD）方法，并通过标准基准测试表明，相比大批量训练，该方法显著提高了模型的泛化性能，同时保持相同的效率和可扩展性。此外，本文对一系列局部 SGD 变体的通信效率与性能权衡进行了广泛的研究。

Aug, 2018

精确的大型小批量随机梯度下降法：在 1 小时内训练 ImageNet

本文研究了分布式同步随机梯度下降算法在大规模数据训练中的应用，证明了通过采用新的学习率调整规则和温暖启动方法，大批量训练可以克服优化难题，取得和小批量相同的精度，实现了在支持多达 256 个 GPU 的硬件上，在一小时内使用 8,192 个图像的小批量对 ResNet-50 进行有效的训练。

Jun, 2017

AdaBatch：用于训练深度神经网络的自适应批量大小

本研究发展一种新的训练方法，在训练过程中自适应地增加 batch size，以达到小 batch size 的收敛速率和大 batch size 的性能表现。实验结果表明，在多个网络模型中，采用自适应 batch size 训练能够显著提高算法性能，同时精度变化不超过 1％。

Dec, 2017

神经网络快速训练的在线批量选择

这篇研究探讨了深度神经网路的随机非凸优化方法中，通过在线选择 “分组数据量”（Batch）来加速学习的策略，提出了一种基于最新数据偏差排名的算法，并在 MNIST 数据集上实验证明，可以加速 AdaDelta 和 Adam 等方法的学习效率。

Nov, 2015

关于深度学习大批量训练的广义缩小和尖峰最小化问题

通过实验证明大批量随机梯度下降法容易陷入训练和测试函数的尖峰最小值，从而导致模型泛化能力下降，而小批量方法表现更好，这可能是由于梯度估计中的固有噪声引起的，可以采用多种策略来帮助大批量方法消除这种泛化差距。

Sep, 2016

基于混合精度的高可扩展深度学习训练系统：四分钟内训练 Imagenet

提出了一个用于 GPU 集群的高度可扩展的深度学习训练系统，其中包括采用混合精度训练的方法、优化极大 mini-batch size 的方法、采用高度优化的全约约算法等，这些方法的使用将深度学习训练的吞吐量和精度取得了很好的平衡。

Jul, 2018

在 ImageNet 数据集上使用极大的 Minibatch SGD 训练 ResNet-50 模型只需 15 分钟

使用大批量大小的训练技术，如 RMSprop 预热、批量归一化等方法，我们成功地在 15 分钟内使用 1024 个 Tesla P100 GPU 在 ImageNet 数据集上对 ResNet-50 进行了 90 轮训练，并在此过程中保持了准确性。

Nov, 2017

端到端渐进式学习

一项新的增量学习方法使用少量的示例集合来学习深层神经网络，解决了深度学习中的灾难性忘记问题，在 CIFAR-100 和 ImageNet（ILSVRC 2012）图像分类数据集上取得了最先进的成果。

Jul, 2018

训练更长时间，泛化更好：在神经网络的大批量训练中缩小泛化差距

该论文研究了大批量训练中的一般化差距现象，并提出一种名为 “Ghost Batch Normalization” 的新算法，可显著减少一般化差距而不增加权重更新数量。

May, 2017