混合专家模型的差分隐私训练

AAAIFeb, 2024

Differentially Private Training of Mixture of Experts Models

Pierre Tholoniat, Huseyin A. Inan, Janardhan Kulkarni, Robert Sim

TL;DR本研究调查了差分隐私 (Differential Privacy) 在自然语言处理领域中混合专家模型 (Mixture of Experts models) 训练中的整合。通过对大规模语言模型 (Large Language Models) 在数十亿参数上进行训练，利用海量数据集，使其具备了强大的语言能力和新兴的能力，但这一增长带来了重大的计算和隐私问题。我们的研究通过探索具备计算效率的 MoE 模型及 DP 的应用来解决这些问题。我们首次尝试在 DP 的约束下训练 MoE 模型，解决了其架构以及 DP 整合的复杂性所带来的独特挑战。我们的初步实验研究表明，MoE 模型可以通过 DP 有效训练，并与非隐私对照组有竞争力的性能。本次研究旨在为隐私保护的 MoE 模型领域提供有价值的洞察力，为该领域进一步的研究奠定基础，并为未来的发展提供引导。

Abstract

This position paper investigates the integration of differential privacy (DP) in the training of Mixture of Experts (MoE) models within the field of natural language processing. As Large Language Models (LLMs) scale to billions of parameters, leveraging expansive datasets, they exhibit

differential privacy mixture of experts models natural language processing computational efficiency privacy preservation

发现论文，激发创造

差分隐私语言模型受益于公共预训练

通过微调基于公共语料库的模型来实现高质量和隐私保护的语言模型，提高私有领域的模型性能，让其成为可能。

Sep, 2020

大型语言模型的差分隐私下一个令牌预测

通过对公共 LLM 输出分布周围的集合投影，并对投影分布进行平均和抽样，PMixED 提供了基于模型预测的差分隐私保护方法，比样本级隐私更可靠，并在大规模数据集上胜过 DP-SGD。

Mar, 2024

差分隐私自然语言模型：最新进展与未来方向

该研究综述了近年来在自然语言处理（NLP）领域中，如何在保护敏感数据的隐私同时实现良好性能的关键挑战。为了保护数据隐私，差分隐私（DP）成为了隐私数据分析的有效技术。本文着重探讨了在 DP 深度学习模型中的自然语言处理 (DP-NLP) 的最新研究进展，并阐述了一些挑战和未来方向。

Jan, 2023

多任务多语种模型的可扩展高效 MoE 训练

采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统，成功训练出拥有数百万参数的高效的多语言生成模型，同时提升了模型的样本效率和推断时间效率。

Sep, 2021

利用差分隐私私密微调大型语言模型

通过使用基于 Edgeworth 会计师的有限样本隐私保证 DP 框架，我们提出了一种针对 LLM 的 DP 细调框架 ewtune，该框架直接降低了噪声的影响，且在自然语言理解任务上将最新的 LLMs 性能提高了 1.1％。

Oct, 2022

具有有限公共数据的差分隐私模型的预训练

通过使用有限的公共数据，我们提出了一种新颖的差分隐私持续预训练策略，可以显著减轻差分隐私优化器的性能下降问题，并在 ImageNet-21k 上实现 41.5% 的差分隐私准确率（ε=8），以及在下游任务 Places365 和 iNaturalist-2021 上分别达到 55.7% 和 60.0% 的非差分隐私准确率，与当前最先进的标准预训练方法相媲美并且明显优于现有的差分隐私预训练模型。

Feb, 2024

稀疏专家混合下的视觉语言模型扩展

本研究探讨了使用稀疏门控专家组技术解决大规模视觉语言模型训练中的挑战，并在等效计算成本下实现最先进性能的潜力，通过稀疏门控专家组对模型解释性的影响及其与 VLM 扩展计算性能之间的折衷，本文为大规模视觉语言模型的扩展提供了宝贵的洞见，并希望能够激发对 MoE 在其他多模态机器学习应用中的研究。

Mar, 2023

基于专家混合的高效大规模语言建模

本文研究了自回归 MoE 语言模型在各种设置下与密集模型的规模比较，并发现除了 fine-tuning 以外，在相同预算下 MoE 模型比密集模型更加高效。该研究表明 MoE 和密集模型在任务和领域上的推广效果不同，值得进一步研究。

Dec, 2021

通过合成文本生成实现差分隐私知识蒸馏

利用差分隐私的知识蒸馏算法，通过利用合成数据和教师模型的输出分布，成功地在压缩自回归型大型语言模型的同时保护训练数据的隐私。

Mar, 2024

LMO-DP: 为巨型语言模型优化差分隐私微调的随机化机制

通过提出一种新的基于语言模型的最优差分隐私（LMO-DP）机制，我们可以在强隐私环境下使用亚优差分隐私机制来准确微调大规模语言模型，并提出了一种离线最优噪声搜索方法来降低噪声幅度。通过大大优于高斯机制的性能，在 SST-2 数据集上，对具有 300M 参数的 RoBERTa-large 进行微调可以实现 92.20% 的准确率（给定 ε=0.3，δ=10^-10），类似的结果也在 GPT-2 的文本生成任务中发现。此外，基于我们的了解，LMO-DP 是第一个具有良好差分隐私保证的准确微调 Llama-2 的解决方案。

May, 2024