加速神经网络训练:简要回顾
对于深度学习模型的训练加速技术的综述,主要从数据中心、模型中心、优化中心、预算训练和系统中心五个角度入手,详细介绍了各个方面减小计算复杂度的方法,其中包括数据样本的正则化、模型参数的减少和优化目标的设计等。
Apr, 2023
通过智能地确定哪些层需要进行梯度放大,我们提出了一个方法来优化深度学习模型在训练过程中的性能和减少训练时间,该方法分析了训练期间不同层的梯度波动,通过对简单和深度神经网络进行实验,我们证明了该方法可以提高模型的准确性,即使使用更高学习率训练模型。
May, 2023
本研究提出了一种通用和统一的框架,通过多级现场生成机制和混合精度基准,实现了高分辨率参数的即时恢复,从而以最小的硬件开销直接将昂贵的内存交易转换为超快的芯片内计算,提高了内存效率 10-20 倍。
Aug, 2021
本论文致力于提高神经网络的效率,提出了连续推理网络(CIN),它通过自下而上的计算重新组织和适度的架构修改来改善其在线处理效率,并采用 CIN 重构了几种广泛使用的网络架构,包括 3D CNN,ST-GCN 和 Transformer Encoders。另外,通过使用熔接适配器网络和结构修剪,本论文还达到了在使用较少的学习权重的情况下实现卓越的预测准确性的目的。
Jun, 2023
本文对深度神经网络模型压缩和加速的最新技术进行了回顾,介绍了参数修剪、量化、转移 / 紧凑卷积滤镜和知识蒸馏等四类技术及其表现、应用、优点和缺点,同时探讨了评估矩阵、评估模型表现所使用的主要数据集和最近的基准努力,并讨论了面临的挑战和未来方向。
Oct, 2017
我们提出了一个多层框架,通过合并和解散以及插值操作来加速训练,从而降低了 BERT/GPT-Base 模型的计算成本约 20%,以及 BERT-Large 模型的计算成本高达 51.6%,同时保持了性能。
Apr, 2024
本文介绍了 FireCaffe,一个可以在 GPU 集群上成功扩展深度神经网络训练的工具,并提出了一些最佳实践方法以帮助比较不同缩放和加速深度神经网络训练方法的进展。在 ImageNet 上训练 GoogLeNet 和 Network-in-Network 时,当集群有 128 个 GPU 时,取得了 47x 和 39x 的加速效果。
Oct, 2015
本文介绍了三个与系统相关的优化方案 —— 分布式批量归一化控制每个副本批量大小、输入管道优化维持模型吞吐量和二维鼓形约减加速梯度求和 —— 将这些优化相结合,在 1024 芯片 TPU v3 Pod 上以超过 105 万张 / 秒的训练吞吐量,在 2.2 分钟内将 ResNet-50 在 ImageNet 上训练到 76.3%的准确度,且没有精度降低。
Nov, 2018