Jan, 2021

ZeRO-Offload: 亿级模型训练的民主化

TL;DRZeRO-Offload通过将数据和计算卸载到CPU,最大化GPU内存节省,减少CPU计算时间的同时提高算力,解决了大规模模型训练所需的高昂费用,可让普通数据科学家在仅拥有单个GPU的情况下训练超过70亿参数的模型。