BriefGPT.xyz
Ask
alpha
关键词
checkpointing
搜索结果 - 5
通用检查点:大规模分布式训练的高效灵活检查点
分布式训练中现有的检查点方法对于硬件限制来说似乎并不适用,虽然模型并行(即在多个加速器上分割模型状态)是模型扩展的要求。为了解决这个问题,我们提出了一种名为 “通用检查点” 的技术,它在提供高效的检查点创建的同时,使得可以在任意并行策略和硬
→
PDF
9 days ago
DataStates-LLM:大型语言模型的惰性异步检查点
LLMs 在高维度计算机基础设施上进行训练和数据导入,为了解决大规模训练中的意外事件对学习造成的负面影响,研究如何减少 I/O 开销,提出了一种懒惰异步多级方法,通过复制模型数据的内容来降低训练过程中的干扰,实验结果显示其比现有的检查点方法
→
PDF
21 days ago
在伴随 ST-AD 中对检查点调度进行配置
基于运行时分析存在的源转换 AD 工具中的 AD 程序,提出了一种在通话树上放置检查点的启发式算法,以减少运行时间和内存占用。
PDF
a month ago
动态张量重构
本文提出一种名为动态张量再制(DTR)的在线算法,可以在有限的内存条件下实现深度学习的模型训练,具有可扩展性和普适性,支持动态模型,并且性能与静态 checkpointing 的最优解相近,实现了 PyTorch 的 DTR 原型。
PDF
4 years ago
TensorFlow 中深度学习 I/O 工作负载的表征
本文旨在研究 DL 计算框架中 I/O 对性能的影响并通过设计微型基准测试和使用 AlexNet 等来测量 TensorFlow 的 I/O 性能和检查点成本,在此基础上,提出了一种使用突发缓冲区进行检查点的设计,最终发现增加线程数量可以最
→
PDF
6 years ago
Prev
Next