DataStates-LLM：大型语言模型的惰性异步检查点

Jun, 2024

DataStates-LLM：大型语言模型的惰性异步检查点

DataStates-LLM: Lazy Asynchronous Checkpointing for Large Language Models

Avinash Maurya, Robert Underwood, M. Mustafa Rafique, Franck Cappello, Bogdan Nicolae

TL;DRLLMs 在高维度计算机基础设施上进行训练和数据导入，为了解决大规模训练中的意外事件对学习造成的负面影响，研究如何减少 I/O 开销，提出了一种懒惰异步多级方法，通过复制模型数据的内容来降低训练过程中的干扰，实验结果显示其比现有的检查点方法具有高达 48 倍的检查点速度和 2.2 倍的全程训练时间。

Abstract

llms have seen rapid adoption in all domains. They need to be trained on high-end high-performance computing (HPC) infrastructures and ingest massive amounts of input data. Unsurprisingly, at such a large scale, unexpected events (e.g., failures of components, instability of the softwa

llms checkpointing i/o overheads fast and scalable training process

发现论文，激发创造

ServerlessLLM: 针对大型语言模型的增强本地化无服务器推理

本文介绍了 ServerlessLLM，一种用于大型语言模型的增强本地化服务器推理系统。ServerlessLLM 通过三个主要贡献实现了高效的检查点加载和推理：(i) 通过新颖的加载优化检查点格式设计和高效的多层检查点加载系统实现快速检查点加载；(ii) 基于本地化的推理和实时迁移，以在保持正在进行的推理的低延迟的同时有效实现本地化的服务器分配；以及 (iii) 考虑本地化的服务器分配，使 ServerlessLLM 能够评估集群中每个服务器的状态，并有效地调度模型的启动时间以发挥本地检查点放置的优势。我们进行的广泛实验，包括微基准测试和真实世界的追踪，表明当运行不同的语言模型推理工作负载时，ServerlessLLM 的延迟性能超过了现有技术系统 10-200 倍。

Jan, 2024

通用检查点：大规模分布式训练的高效灵活检查点

分布式训练中现有的检查点方法对于硬件限制来说似乎并不适用，虽然模型并行（即在多个加速器上分割模型状态）是模型扩展的要求。为了解决这个问题，我们提出了一种名为 “通用检查点” 的技术，它在提供高效的检查点创建的同时，使得可以在任意并行策略和硬件配置上恢复训练，从而为大规模训练解锁了前所未有的能力。

Jun, 2024

理解早期权重平均对大型语言模型训练的有效性

通过运用检查点平均化方法来改进大型语言模型（LLMs）的质量，在不增加额外培训或推理成本的前提下，缩短训练时间并提高测试和零样本泛化能力。

Jun, 2023

数据中心中大型语言模型开发的特征

对大型语言模型进行了深入研究，调查了与以往任务特定的深度学习工作负载之间的差异，探索了资源利用模式，并确定了各种作业故障的影响。通过故障容忍的预训练和评估的解耦调度，提出了优化针对大型语言模型系统的潜在机会。

Mar, 2024

ExCP：通过权重和动量联合缩小实现极限 LLM 检查点压缩

本文提出了一种新的 Extreme Checkpoint Compression（ExCP）框架，通过计算相邻检查点的残差和利用权重 - 动量联合收缩方法来压缩检查点的存储空间，并利用非均匀量化进一步减小存储空间，实现了大规模语言模型的高效训练和压缩。

Jun, 2024

互联网上大规模语言模型的分布式推理和微调

本研究探讨了大型语言模型在成本高效的推理和微调方面的方法，并比较了本地和分布式策略。我们开发了特殊的容错推理算法和负载平衡协议，用于自动分配设备以最大化系统总吞吐量，并展示了这些算法在 Petals 中的应用，该分散式系统能够以比离线处理快 10 倍的速度运行大型语言模型。我们通过模拟条件和跨越两大洲的真实场景对系统性能进行了评估。

Dec, 2023

FastPersist：加速深度学习中的模型检查点

FastPersist 通过结合 NVMe 的优化、有效的写并行化以及与独立的训练计算重叠的检查点创建方式，实现了在持久存储中创建检查点的加速，相比基线方法快速 116 倍，并实现了每次迭代检查点的无可忽略开销。

Jun, 2024

LLM 预训练中的基于贝叶斯优化的检查点合并

我们提出了一种在预训练大型语言模型中合并检查点的方法，通过贝叶斯优化在广泛的搜索空间中找到最佳合并权重，实验证明我们的方法在最大限度减少成本的同时增加了预训练能力，并展示了跨多个领域的强大泛化能力。

Mar, 2024

大型语言模型预训练的高效参数搜索和并行性扩展研究

研究项目侧重于并行和分布式机器学习算法的开发，特别是优化数据处理和预训练一组包括 5 个编码解码器 LLM（从 5.8 亿到 130 亿个参数不等）。我们进行了一项细致的研究，以量化三种机器学习并行性方法之间的关系，特别是探索了微软 DeepSpeed Zero Redundancy Optimizer (ZeRO) 阶段。

Oct, 2023

简单且可扩展的策略，用于持续预训练大型语言模型

大型语言模型的持续学习策略可以通过简单且可扩展的方法成功更新模型，同时只需使用一小部分计算资源来达到重新训练的效果。

Mar, 2024