在 LLM 时代训练基于私有联邦数据的语言模型

ICMLJun, 2024

在 LLM 时代训练基于私有联邦数据的语言模型

PrE-Text: Training Language Models on Private Federated Data in the Age of LLMs

Charlie Hou, Akshat Shrivastava, Hongyuan Zhan, Rylan Conway, Trang Le...

TL;DR通过使用差分隐私合成数据，我们展示了相比于在设备上使用用户数据进行训练，使用差分隐私合成数据进行训练可以取得更好的模型性能，并且具有更少的通信和计算成本。

Abstract

on-device training is currently the most common approach for training machine learning (ML) models on private, distributed user data. Despite this, on-device training has several drawbacks: (1) most user devices are too small to train large models on-device, (2) →

on-device training machine learning models differentially private synthetic data privacy regimes language model performance

发现论文，激发创造

激励公共大型语言模型为私人设备应用合成数据

通过在公共数据上进行预训练可以改善差分隐私联合学习 (FL) 的性能。本文研究了如何利用在公共数据上训练的大规模语言模型 (LLMs) 来改善与 DP 和 FL 一起训练的设备上语言模型的预训练数据的质量。我们精心设计了 LLM 提示来过滤和转换现有公共数据，并生成类似于真实用户数据分布的新数据。在 Gboard 的真实用户数据上进行评估时，我们在合成数据集上预训练的模型相对于在标准公共数据集上预训练的基线模型在下一个单词预测准确性方面分别实现了 19.0% 和 22.8% 的改善。此外，在数百万台移动设备上进行差分隐私 FL 调优期间，我们的方法达到了优于或可与基线相媲美的评估准确性，而我们的最终模型在生产 A/B 测试中优于基线。我们的实验证明了 LLMs 在合成接近私有分布的数据时的优势，即使不访问私有数据，还提出了进一步减少分布差距的未来研究方向。

Apr, 2024

通过基础模型 API 生成差分隐私合成数据 2: 文本

我们提出了一种名为 Aug-PE 的增强版 PE 算法，应用于文本的复杂情境，通过 API 访问大型语言模型，生成差分隐私的合成文本，实验证明 Aug-PE 可以产生具有竞争性效用的差分隐私合成文本，从而便捷地在隐私保护的语言模型应用中提供更可访问的路线。

Mar, 2024

利用大型语言模型生成私有合成文本

本文研究了使用敏感数据集生成新的差分隐私数据集作为替代方法，通过使用预先训练好的生成式语言模型并在敏感数据上进行私有调优，然后利用该模型可以产生差分隐私合成数据集，同时展示了训练目标及少调参数可提高合成数据的质量并与直接使用差分隐私训练下游分类器性能竞争力几乎相同，还可用于调整同一模型等级的分类器。

Jun, 2023

公共大型语言模型能帮助私人跨设备联邦学习吗？

本文研究基于大规模公共数据和语言模型的差分隐私联邦学习，提出了一种新的分布匹配算法，以样本高效为目标，实现了基于公共数据训练私有模型的高效和有效的方法。

May, 2023

差分隐私语言模型受益于公共预训练

通过微调基于公共语料库的模型来实现高质量和隐私保护的语言模型，提高私有领域的模型性能，让其成为可能。

Sep, 2020

隐私微调的有选择预训练

介绍了一种通用框架，用于解决训练文本预测模型的问题，实现用户数据的隐私保护和固定大小以满足内存和推理时间要求，主要利用区分隐私的预训练和 fine-tune，优化模型交迁和达到高效压缩。

May, 2023

大语言模型时代的隐私保护：你所写即你所是

本文调查了一系列流行模型中预训练表示所编码的个人信息的程度，并展示了模型越复杂和数据越多，可能出现数据泄露的正相关性。作者对一种大型多语言数据集上的情感分析特征进行了广泛覆盖的比较和评估，结果表明，隐私保护方法的使用非常重要。作者还发现高度隐私保护的技术（如差分隐私）可能会对模型效用产生严重影响，可以使用混合或度量隐私方法来解决。

Apr, 2022

通过合成文本生成实现差分隐私知识蒸馏

利用差分隐私的知识蒸馏算法，通过利用合成数据和教师模型的输出分布，成功地在压缩自回归型大型语言模型的同时保护训练数据的隐私。

Mar, 2024

使用差分隐私大型语言模型生成合成查询的保护隐私推荐系统

该研究提出了一种新方法，使用差分隐私的大型语言模型开发隐私保护的大规模推荐系统，其方法可以通过在一个查询生成任务中微调预训练的 LLM 模型，生成私有的合成查询以供下游非私有推荐训练使用，同时不会增加任何额外的隐私成本，其在有效的深度检索模型上进行了安全训练的能力得到了验证，并观察到与直接 DP 训练检索模型的方法相比，在不损害查询级隐私保障的前提下显著提高了检索质量。

May, 2023

建立预训练语言模型的方法：无数据？别担心，采用翻译语言

通过使用机器翻译创建合成数据（Translationese）预训练语言模型（LMs），本研究探讨了将 Translationese 作为一种用于预训练语言模型的可用性。我们以英语和印度语为例，将网络抓取的单语文档翻译成目标语言，然后在这些合成数据（synthetic）上用含有 2800 万和 8500 万参数的语言模型进行训练。实验证明，在下游自然语言理解和生成任务中，与基于干净数据进行预训练的语言模型相比，我们的模型性能仅差 3.56％（自然语言理解任务）和 1.51％（自然语言生成任务）。此外，我们提出了使用基于干净数据进行预训练的轻量级 TinyLMs 有效过滤合成数据的方法，从而显著提高模型性能。我们还发现，在一个微小比例（10％）的干净数据上进行扩展预训练能显著改善预训练合成数据的语言模型。我们通过这项工作收集和创建的数据集 IndicMonoDoc 是最大的单语文档级语料库，希望能够弥补英语和非英语大型语言模型性能差距。

Mar, 2024