在 LLM 时代训练基于私有联邦数据的语言模型
通过在公共数据上进行预训练可以改善差分隐私联合学习 (FL) 的性能。本文研究了如何利用在公共数据上训练的大规模语言模型 (LLMs) 来改善与 DP 和 FL 一起训练的设备上语言模型的预训练数据的质量。我们精心设计了 LLM 提示来过滤和转换现有公共数据,并生成类似于真实用户数据分布的新数据。在 Gboard 的真实用户数据上进行评估时,我们在合成数据集上预训练的模型相对于在标准公共数据集上预训练的基线模型在下一个单词预测准确性方面分别实现了 19.0% 和 22.8% 的改善。此外,在数百万台移动设备上进行差分隐私 FL 调优期间,我们的方法达到了优于或可与基线相媲美的评估准确性,而我们的最终模型在生产 A/B 测试中优于基线。我们的实验证明了 LLMs 在合成接近私有分布的数据时的优势,即使不访问私有数据,还提出了进一步减少分布差距的未来研究方向。
Apr, 2024
我们提出了一种名为 Aug-PE 的增强版 PE 算法,应用于文本的复杂情境,通过 API 访问大型语言模型,生成差分隐私的合成文本,实验证明 Aug-PE 可以产生具有竞争性效用的差分隐私合成文本,从而便捷地在隐私保护的语言模型应用中提供更可访问的路线。
Mar, 2024
本文研究了使用敏感数据集生成新的差分隐私数据集作为替代方法,通过使用预先训练好的生成式语言模型并在敏感数据上进行私有调优,然后利用该模型可以产生差分隐私合成数据集,同时展示了训练目标及少调参数可提高合成数据的质量并与直接使用差分隐私训练下游分类器性能竞争力几乎相同,还可用于调整同一模型等级的分类器。
Jun, 2023
本文研究基于大规模公共数据和语言模型的差分隐私联邦学习,提出了一种新的分布匹配算法,以样本高效为目标,实现了基于公共数据训练私有模型的高效和有效的方法。
May, 2023
介绍了一种通用框架,用于解决训练文本预测模型的问题,实现用户数据的隐私保护和固定大小以满足内存和推理时间要求,主要利用区分隐私的预训练和 fine-tune,优化模型交迁和达到高效压缩。
May, 2023
本文调查了一系列流行模型中预训练表示所编码的个人信息的程度,并展示了模型越复杂和数据越多,可能出现数据泄露的正相关性。作者对一种大型多语言数据集上的情感分析特征进行了广泛覆盖的比较和评估,结果表明,隐私保护方法的使用非常重要。作者还发现高度隐私保护的技术(如差分隐私)可能会对模型效用产生严重影响,可以使用混合或度量隐私方法来解决。
Apr, 2022
该研究提出了一种新方法,使用差分隐私的大型语言模型开发隐私保护的大规模推荐系统,其方法可以通过在一个查询生成任务中微调预训练的 LLM 模型,生成私有的合成查询以供下游非私有推荐训练使用,同时不会增加任何额外的隐私成本,其在有效的深度检索模型上进行了安全训练的能力得到了验证,并观察到与直接 DP 训练检索模型的方法相比,在不损害查询级隐私保障的前提下显著提高了检索质量。
May, 2023
通过使用机器翻译创建合成数据(Translationese)预训练语言模型(LMs),本研究探讨了将 Translationese 作为一种用于预训练语言模型的可用性。我们以英语和印度语为例,将网络抓取的单语文档翻译成目标语言,然后在这些合成数据(synthetic)上用含有 2800 万和 8500 万参数的语言模型进行训练。实验证明,在下游自然语言理解和生成任务中,与基于干净数据进行预训练的语言模型相比,我们的模型性能仅差 3.56%(自然语言理解任务)和 1.51%(自然语言生成任务)。此外,我们提出了使用基于干净数据进行预训练的轻量级 TinyLMs 有效过滤合成数据的方法,从而显著提高模型性能。我们还发现,在一个微小比例(10%)的干净数据上进行扩展预训练能显著改善预训练合成数据的语言模型。我们通过这项工作收集和创建的数据集 IndicMonoDoc 是最大的单语文档级语料库,希望能够弥补英语和非英语大型语言模型性能差距。
Mar, 2024