FastPersist：加速深度学习中的模型检查点

Jun, 2024

FastPersist：加速深度学习中的模型检查点

FastPersist: Accelerating Model Checkpointing in Deep Learning

Guanhua Wang, Olatunji Ruwase, Bing Xie, Yuxiong He

TL;DRFastPersist 通过结合 NVMe 的优化、有效的写并行化以及与独立的训练计算重叠的检查点创建方式，实现了在持久存储中创建检查点的加速，相比基线方法快速 116 倍，并实现了每次迭代检查点的无可忽略开销。

Abstract

model checkpoints are critical deep learning (DL) artifacts that enable fault tolerance for training and downstream applications, such as inference. However, writing checkpoints to persistent storage, and other I

model checkpoints deep learning fault tolerance checkpoint creation efficient write parallelism

发现论文，激发创造

DataStates-LLM：大型语言模型的惰性异步检查点

LLMs 在高维度计算机基础设施上进行训练和数据导入，为了解决大规模训练中的意外事件对学习造成的负面影响，研究如何减少 I/O 开销，提出了一种懒惰异步多级方法，通过复制模型数据的内容来降低训练过程中的干扰，实验结果显示其比现有的检查点方法具有高达 48 倍的检查点速度和 2.2 倍的全程训练时间。

Jun, 2024

TensorFlow 中深度学习 I/O 工作负载的表征

本文旨在研究 DL 计算框架中 I/O 对性能的影响并通过设计微型基准测试和使用 AlexNet 等来测量 TensorFlow 的 I/O 性能和检查点成本，在此基础上，提出了一种使用突发缓冲区进行检查点的设计，最终发现增加线程数量可以最多将 TensorFlow 带宽提高 2.3 倍，在 CPU 上增加使用 prefetcher 可以完全消除 I/O 对于整体性能的负面影响，并且在基准测试环境中使用突发缓冲区进行检查点可以使性能提高 2.6 倍。

Oct, 2018

通用检查点：大规模分布式训练的高效灵活检查点

分布式训练中现有的检查点方法对于硬件限制来说似乎并不适用，虽然模型并行（即在多个加速器上分割模型状态）是模型扩展的要求。为了解决这个问题，我们提出了一种名为 “通用检查点” 的技术，它在提供高效的检查点创建的同时，使得可以在任意并行策略和硬件配置上恢复训练，从而为大规模训练解锁了前所未有的能力。

Jun, 2024

超级计算机规模的图像分类

本文介绍了三个与系统相关的优化方案 —— 分布式批量归一化控制每个副本批量大小、输入管道优化维持模型吞吐量和二维鼓形约减加速梯度求和 —— 将这些优化相结合，在 1024 芯片 TPU v3 Pod 上以超过 105 万张 / 秒的训练吞吐量，在 2.2 分钟内将 ResNet-50 在 ImageNet 上训练到 76.3％的准确度，且没有精度降低。

Nov, 2018

DeepCache：加速扩散模型的自由之选

Diffusion models have gained attention in image synthesis, and this paper introduces DeepCache, a training-free paradigm that accelerates diffusion models by capitalizing on temporal redundancy in denoising steps and achieving a speedup factor of 2.3x for Stable Diffusion v1.5 and 4.1x for LDM-4-G without significant decline in CLIP Score or FID on ImageNet.

Dec, 2023

动态张量重构

本文提出一种名为动态张量再制（DTR）的在线算法，可以在有限的内存条件下实现深度学习的模型训练，具有可扩展性和普适性，支持动态模型，并且性能与静态 checkpointing 的最优解相近，实现了 PyTorch 的 DTR 原型。

Jun, 2020

通过多级原位生成实现内存高效神经网络

本研究提出了一种通用和统一的框架，通过多级现场生成机制和混合精度基准，实现了高分辨率参数的即时恢复，从而以最小的硬件开销直接将昂贵的内存交易转换为超快的芯片内计算，提高了内存效率 10-20 倍。

Aug, 2021

DeepSpeed 推理：在前所未有的规模下实现 Transformer 模型的高效推理

本文介绍了 DeepSpeed Inference 这一全面的转换模型推断系统解决方案，以解决目前多样化的转换模型在推断时遇到的挑战，包括多 GPU 推断方案，利用 CPU 和 NVMe 内存进行异构推断以及在实时延迟限制下运行万亿级别的推断等，并且可以比 GPU-only 解决方案处理规模大 25 倍的模型，同时提供高吞吐量。

Jun, 2022

Colossal-Auto：大规模模型并行化和激活检查点的统一自动化

提出一种可同时优化分布式执行和渐进式检查点规划的系统，以支持在给定硬件上最小代码更改的情况下对模型进行并行训练，并提供易于使用的符号分析器生成任何 PyTorch 模型的内存和计算统计信息。

Feb, 2023

加速神经网络训练：简要回顾

研究通过应用 Gradient Accumulation、Automatic Mixed Precision 和 Pin Memory 等方法来加速深度神经网络的训练过程，并证明这些方法能够显著提高训练效率，为深度学习过程的改进提供重要见解。

Dec, 2023