ScaLA: 通过高效的大批量对抗性噪声加速预训练的基于 Transformer 的语言模型的适应性

Jan, 2022

ScaLA: 通过高效的大批量对抗性噪声加速预训练的基于 Transformer 的语言模型的适应性

ScaLA: Accelerating Adaptation of Pre-Trained Transformer-Based Language Models via Efficient Large-Batch Adversarial Noise

PDF

Minjia Zhang, Niranjan Uma Naresh, Yuxiong He

TL;DR通过加入轻量级对抗噪声到大规模优化中，我们提出了 ScaLA 方法，可以加速预训练 transformer 网络的自适应速度，并在保持模型概括能力的同时，取得了与最先进的大批量优化方法相当甚至更高的准确性。

Abstract

In recent years, large pre-trained transformer-based language models have led to dramatic improvements in many natural language understanding tasks. To train these models with increasing sizes, many neural network practitioners attempt to increase the batch sizes in order to leverage m

transformer-based language models large-batch optimization scala adversarial noise model generalization

发现论文，激发创造

大批次训练的并发对抗学习

本研究提出使用对抗学习 (adversarial learning) 技术来增加大批量训练 (large-batch training) 的批量大小，以克服随着批量大小的增加而降低的数据增强表现的问题，并通过 Concurrent Adversarial Learning (ConAdv) 方法来解决对抗学习中的时间成本问题，在 ImageNet ResNet-50 训练中成功将批量大小扩展到 96K，并在保持高精度的同时大幅提高了模型的训练效率。

Jun, 2021

AdaScale SGD：分布式训练的用户友好型算法

AdaScale SGD 是一种可靠地适应大批量训练学习率的算法，通过不断调整梯度方差，可以实现在宽范围的批量大小下加速训练。在机器翻译，图像分类，目标检测和语音识别任务中，它可以处理大批量训练，而不会降低模型质量，因为 AdaScale 的收敛性边界可以保持最终目标值，即使批量大小增加，迭代次数减少。这个算法引入了可忽略的计算开销和没有新的超参数，因此是实现大规模训练的有吸引力的选择。

Jul, 2020

使用敌对式训练和二阶信息进行神经网络的大批量训练

本文提出了一种基于 Ray 框架的新型自适应批量大小框架，以及一种使用二阶方法和对抗训练的新型自适应批量大小训练方案，该方法在多个神经网络和数据集上均实现了比现有解决方案更好的效果。

Oct, 2018

大批量训练的实证模型

本文研究使用仅依赖梯度的统计量 (gradient noise scale) 来预测各种深度学习模型中最适合的 batch size 的大小，结果表明该参数可以在很多领域都适用，包括监督学习数据、强化学习领域以及生成模型训练。

Dec, 2018

使用尺度不变架构强化神经网络训练

本文提出了通过修改网络结构，使其缩放不变，并使用 SGD 和权重衰减进行训练的通用方法，并证明了此方法不仅可以实现稳健的训练，还可以节省内存。作者还设计了一种名为 SIBERT 的缩放不变的 BERT 版本，其性能可与使用 Adam 等自适应方法训练的 BERT 相媲美。

Feb, 2022

深度学习大批量优化：76 分钟训练 BERT

本文提出了一个新的基于分层自适应学习率的大批量优化技术 ——LAMB，主要用于加速深度神经网络训练。在各种任务（如 BERT 和 ResNet-50）中，LAMB 的表现优于现有算法，特别是在 BERT 训练中，我们的优化器能够实现 32868 的大批量大小，将训练时间从 3 天缩短至 76 分钟。

Apr, 2019

深度学习大批量训练中的外推

本文提出使用计算有效的外推方法来稳定优化轨迹，同时通过平滑避免锐减的局部最小值，从而解决了大批量训练数据下的模型精度退化问题并且在 ResNet、LSTM 和 Transformer 等模型下得到证明。

Jun, 2020

通过梯度信噪比（GSNR）加速大批量训练

基于梯度信噪比的方差缩减梯度下降技术对大批量任务进行了快速训练动态的理论分析和泛化分析，证明了其加速训练、缩小泛化差距和提高最终精度的效果。

Sep, 2023

对比对抗训练改进的文本分类

该研究提出了一种正则化 Transformer-based 编码器 fine-tuning 用于文本分类任务的通用方法，并通过对干净和对抗性示例的对比学习来实现噪声不变表示，从而得到更好的文本分类效果。

Jul, 2021

FreeLB: 自然语言理解增强型对抗训练

本文提出了一种新的对抗性训练算法 FreeLB，它通过在单词嵌入中添加对抗性扰动并在不同输入样本周围的区域内最小化结果对抗风险，推广了嵌入空间中的更高不变性。实验证明，这种方法能够提高自然语言理解和常识推理任务中 Transformer 模型的性能。

Sep, 2019