激励公共大型语言模型为私人设备应用合成数据

Apr, 2024

激励公共大型语言模型为私人设备应用合成数据

Prompt Public Large Language Models to Synthesize Data for Private On-device Applications

Shanshan Wu, Zheng Xu, Yanxiang Zhang, Yuanbo Zhang, Daniel Ramage

TL;DR通过在公共数据上进行预训练可以改善差分隐私联合学习 (FL) 的性能。本文研究了如何利用在公共数据上训练的大规模语言模型 (LLMs) 来改善与 DP 和 FL 一起训练的设备上语言模型的预训练数据的质量。我们精心设计了 LLM 提示来过滤和转换现有公共数据，并生成类似于真实用户数据分布的新数据。在 Gboard 的真实用户数据上进行评估时，我们在合成数据集上预训练的模型相对于在标准公共数据集上预训练的基线模型在下一个单词预测准确性方面分别实现了 19.0% 和 22.8% 的改善。此外，在数百万台移动设备上进行差分隐私 FL 调优期间，我们的方法达到了优于或可与基线相媲美的评估准确性，而我们的最终模型在生产 A/B 测试中优于基线。我们的实验证明了 LLMs 在合成接近私有分布的数据时的优势，即使不访问私有数据，还提出了进一步减少分布差距的未来研究方向。

Abstract

pre-training on public data is an effective method to improve the performance for federated learning (FL) with differential privacy (DP).

pre-training federated learning differential privacy large language models synthetic dataset

发现论文，激发创造

公共大型语言模型能帮助私人跨设备联邦学习吗？

本文研究基于大规模公共数据和语言模型的差分隐私联邦学习，提出了一种新的分布匹配算法，以样本高效为目标，实现了基于公共数据训练私有模型的高效和有效的方法。

May, 2023

在 LLM 时代训练基于私有联邦数据的语言模型

通过使用差分隐私合成数据，我们展示了相比于在设备上使用用户数据进行训练，使用差分隐私合成数据进行训练可以取得更好的模型性能，并且具有更少的通信和计算成本。

Jun, 2024

使用差分隐私大型语言模型生成合成查询的保护隐私推荐系统

该研究提出了一种新方法，使用差分隐私的大型语言模型开发隐私保护的大规模推荐系统，其方法可以通过在一个查询生成任务中微调预训练的 LLM 模型，生成私有的合成查询以供下游非私有推荐训练使用，同时不会增加任何额外的隐私成本，其在有效的深度检索模型上进行了安全训练的能力得到了验证，并观察到与直接 DP 训练检索模型的方法相比，在不损害查询级隐私保障的前提下显著提高了检索质量。

May, 2023

使用零射击启发局部差分隐私文档生成

使用 DP-Prompt 及类似 ChatGPT 的强大语言模型在 IMDB 数据集上进行实验，发现其能够有效减少 de-anonymization 攻击成功率，并在与现有方法相比设计更简单的情况下，完全恢复了清洁情感 F1 分数，同时在对抗静态攻击者和自适应攻击者方面分别实现了 46% 和 26% 的减少

Oct, 2023

通过自监督的数据选择和合成实现设备端大规模语言模型个性化训练

通过提出一种新的框架来选择和存储在线上最具代表性的数据，本文解决了在设备上进行个性化的大型语言模型优化的问题，考虑了稀疏标注和有限的设备存储空间。

Nov, 2023

使用私有联邦学习进行语言模型训练的人口扩展

本研究提出了基于域自适应技术扩展人口规模的方案，以加速小规模人口的训练并提高最终模型质量。实证结果表明，该技术可将实际语言建模数据集的效用提高 13% 至 30%。

Jul, 2023

差分隐私语言模型受益于公共预训练

通过微调基于公共语料库的模型来实现高质量和隐私保护的语言模型，提高私有领域的模型性能，让其成为可能。

Sep, 2020

DP-OPT：隐私保护的大型语言模型优化器

我们提出了一种名为 DP-OPT 的新解决方案，通过在客户端调整离散提示，然后应用到所需的云模型上，解决了将数据发送给模型提供者进行训练时面临的隐私问题，确保离散提示不泄露个人信息。

Nov, 2023

具差分隐私的 Gboard 语言模型联合学习

应用差分隐私和联邦学习算法，在 Google 键盘（Gboard）的多个模型中实现了高效且可靠的隐私保障，并提供了基于分位数估计的剪辑规范自适应方法，为学习者提供了具体建议。

May, 2023

OpenFedLLM: 基于联邦学习在去中心化私有数据上训练大型语言模型

通过联邦学习的方式，利用分布式私有数据进行协作和隐私保护的大型语言模型（LLM）培训，相较于传统的本地培训方式，取得了明显的性能提升。

Feb, 2024