加速神经网络训练：简要回顾

Dec, 2023

Accelerating Neural Network Training: A Brief Review

Sahil Nokhwal, Priyanka Chilakalapudi, Preeti Donekal, Manoj Chandrasekharan, Suman Nokhwal...

TL;DR研究通过应用 Gradient Accumulation、Automatic Mixed Precision 和 Pin Memory 等方法来加速深度神经网络的训练过程，并证明这些方法能够显著提高训练效率，为深度学习过程的改进提供重要见解。

Abstract

The process of training a deep neural network is characterized by significant time requirements and associated costs. Although researchers have made considerable progress in this area, further work is still required due to resource constraints. This study examines innovative approaches to expedite the →

deep neural networks training process resnet50 vision transformer efficientnet

发现论文，激发创造

大规模深度学习模型的高效训练：文献综述

对于深度学习模型的训练加速技术的综述，主要从数据中心、模型中心、优化中心、预算训练和系统中心五个角度入手，详细介绍了各个方面减小计算复杂度的方法，其中包括数据样本的正则化、模型参数的减少和优化目标的设计等。

Apr, 2023

深度神经网络的智能梯度放大

通过智能地确定哪些层需要进行梯度放大，我们提出了一个方法来优化深度学习模型在训练过程中的性能和减少训练时间，该方法分析了训练期间不同层的梯度波动，通过对简单和深度神经网络进行实验，我们证明了该方法可以提高模型的准确性，即使使用更高学习率训练模型。

May, 2023

通过多级原位生成实现内存高效神经网络

本研究提出了一种通用和统一的框架，通过多级现场生成机制和混合精度基准，实现了高分辨率参数的即时恢复，从而以最小的硬件开销直接将昂贵的内存交易转换为超快的芯片内计算，提高了内存效率 10-20 倍。

Aug, 2021

深度神经网络的高效在线处理

本论文致力于提高神经网络的效率，提出了连续推理网络（CIN），它通过自下而上的计算重新组织和适度的架构修改来改善其在线处理效率，并采用 CIN 重构了几种广泛使用的网络架构，包括 3D CNN，ST-GCN 和 Transformer Encoders。另外，通过使用熔接适配器网络和结构修剪，本论文还达到了在使用较少的学习权重的情况下实现卓越的预测准确性的目的。

Jun, 2023

深度神经网络模型压缩与加速综述

本文对深度神经网络模型压缩和加速的最新技术进行了回顾，介绍了参数修剪、量化、转移 / 紧凑卷积滤镜和知识蒸馏等四类技术及其表现、应用、优点和缺点，同时探讨了评估矩阵、评估模型表现所使用的主要数据集和最近的基准努力，并讨论了面临的挑战和未来方向。

Oct, 2017

大规模神经网络训练调查

本文系统地讨论了提高深度神经网络训练效率的方法，重点考虑了内存利用率和 GPU 训练，分类总结了相关策略，并且比较了不同类别之间的方法。

Feb, 2022

加速训练 Transformer 模型的多层框架

我们提出了一个多层框架，通过合并和解散以及插值操作来加速训练，从而降低了 BERT/GPT-Base 模型的计算成本约 20%，以及 BERT-Large 模型的计算成本高达 51.6%，同时保持了性能。

Apr, 2024

FireCaffe: 在计算集群上深度神经网络训练的近线性加速

本文介绍了 FireCaffe，一个可以在 GPU 集群上成功扩展深度神经网络训练的工具，并提出了一些最佳实践方法以帮助比较不同缩放和加速深度神经网络训练方法的进展。在 ImageNet 上训练 GoogLeNet 和 Network-in-Network 时，当集群有 128 个 GPU 时，取得了 47x 和 39x 的加速效果。

Oct, 2015

训练物理思维神经网络的专家指南

通过提出一系列最佳实践，改进物理信息神经网络（PINNs）的训练效率和整体准确性，还展示了不同架构选择和训练策略如何影响结果模型的测试准确性。

Aug, 2023

超级计算机规模的图像分类

本文介绍了三个与系统相关的优化方案 —— 分布式批量归一化控制每个副本批量大小、输入管道优化维持模型吞吐量和二维鼓形约减加速梯度求和 —— 将这些优化相结合，在 1024 芯片 TPU v3 Pod 上以超过 105 万张 / 秒的训练吞吐量，在 2.2 分钟内将 ResNet-50 在 ImageNet 上训练到 76.3％的准确度，且没有精度降低。

Nov, 2018