CVPRApr, 2023

DisCo-CLIP: 基于分布式对比损失的高存储效率 CLIP 训练

TL;DR提出了一种名为 DisCo-CLIP 的分布式内存高效的 CLIP 训练方法,旨在减少对比损失在对比学习模型训练时的内存消耗,通过分解对比损失和梯度计算成两部分,一个用于计算内部 GPU 梯度,另一个用于计算跨 GPU 梯度,将跨 GPU 梯度通过 all_reduce 从其他 GPU 收集而不是在每个 GPU 上反复计算,从而将对比损失的 GPU 内存消耗从 O (B^2) 降至 O (B^2/N),适用于大批量 CLIP 训练。