差分隐私下的零冗余分布式学习
本文描述了一种名为 ZeRO 的内存优化算法,可以有效地缩短大型深度学习模型的训练时间,并提高模型大小和通讯效率。该算法在 400 个 GPU 上训练了超过 1000 亿参数的大型模型,提供了比现有技术更高的性能和可用性。
Oct, 2019
ZeRO-Offload 通过将数据和计算卸载到 CPU,最大化 GPU 内存节省,减少 CPU 计算时间的同时提高算力,解决了大规模模型训练所需的高昂费用,可让普通数据科学家在仅拥有单个 GPU 的情况下训练超过 70 亿参数的模型。
Jan, 2021
DP-ZO 是一种维护训练数据隐私的方法,通过对零阶优化中步长的隐私化来对大型语言模型进行微调,可在保守的隐私预算下提供强大的隐私 - 效用权衡,且在 SQuAD 的 1000 个训练样本上,对 OPT-66B 的微调仅导致 1.86% 的性能降低。
Jan, 2024
通过零阶方法进行微调预训练语言模型,以解决精调大型语言模型在内存和隐私方面面临的挑战。DPZero 是一个新的具有几乎维度无关率的差分隐私零阶算法,对于实际中的语言模型部署具有高度实用性。
Oct, 2023
本文介绍了三种通信量减少技术,目标是针对 ZeRO 中的每个通信集合,共同提高 ZeRO ++ 的有效吞吐量,减少 ZeRO 的通信量,并允许在 384 个 GPU 规模下提高最多 2.16 倍的吞吐量。
Jun, 2023
DeepZero 是一个基于 Zeroth-order optimization 的深度学习框架,通过三个主要创新使得 ZO 优化可用于深度神经网络的训练,同时实现了与一阶优化相当的性能,其优点包括坐标梯度估计(CGE)在训练准确性和计算效率上的优势,以及利用模型剪枝方法扩展稀疏 DL 先验信息的 ZO 训练协议,并通过特征重用和前向并行化方法提高 ZO 训练的实际实施。
Oct, 2023
该论文提出了一项新的异构系统技术,称为 ZeRO-Infinity,它可以在有限的资源上实现前所未有的模型规模,同时实现出色的训练吞吐量和可扩展性,并且无需重构模型代码,是一个可以应用于当前 GPU 集群的技术。
Apr, 2021
本文提出了一种新的 Book-Keeping(BK)技术,用于实现现有的 DP 优化器,以降低计算成本,并在视觉和语言任务方面进行广泛实验,取得了 SOTA 精度。
Sep, 2022
差分隐私随机梯度下降(DP-SGD)是在差分隐私下训练机器学习模型的标准算法,其主要缺点是效用下降和显著的计算成本,我们通过综合实证研究量化了差分隐私下训练深度学习模型的计算成本,并对旨在降低成本的方法进行了基准测试,其中包括更高效的 DP-SGD 实现和使用低精度进行训练,最后我们还研究了使用多达 80 个 GPU 的扩展行为。
Jun, 2024
该研究评估了差分隐私对于联邦学习系统中使用大规模本地化 Transformer 模型进行精调的实用性,发现全精调普遍会导致性能严重下降,但通过参数高效的精调方法能够缓解这一问题,而 DP-DyLoRA 方法在现有的 DP-PEFT 方法中表现出色。
May, 2024