Apr, 2023
PyTorch FSDP: 全分片数据并行扩展的经验
PyTorch FSDP: Experiences on Scaling Fully Sharded Data Parallel
Yanli Zhao, Andrew Gu, Rohan Varma, Liang Luo, Chien-Chin Huang...
TL;DR本文介绍了 PyTorch 全面分片数据并行 (FSDP) 作为大模型训练的行业级解决方案,并展示了它在优化资源利用方面的性能,这使得 FSDP 能够同时支持大模型以及 TFLOPS 的线性可伸缩性。