安全地使用私有数据：大规模语言模型的联邦学习框架

Jun, 2024

安全地使用私有数据：大规模语言模型的联邦学习框架

Safely Learning with Private Data: A Federated Learning Framework for Large Language Model

JiaYing Zheng, HaiNan Zhang, LingXiang Wang, WangJie Qiu, HongWei Zheng...

TL;DR我们提出了一种用于大型语言模型的联邦学习框架FL-GLM，通过在本地客户端放置输入块和输出块以防止来自服务器的嵌入梯度攻击，使用密钥加密来防止来自对端客户端的逆向工程攻击，并采用客户端批处理或服务器分层等优化方法来提高训练效率。通过在NLU和生成任务上的实验结果，证明了FL-GLM与集中式chatGLM模型具有可比较的指标，验证了我们的联邦学习框架的有效性。

Abstract

private data, being larger and quality-higher than public data, can greatly improve large language models (LLM). However, due to privacy concerns, this data is often dispersed in multiple silos, making its secure

发现论文，激发创造

联邦基础模型：大型模型的隐私保护和协同学习

本文介绍了一种结合了联邦学习和基础模型的隐私保存方法，即联邦基础模型，其中涉及该方法的不同方面和任务，以及与传统基础模型的比较和实验。

May, 2023

公共大型语言模型能帮助私人跨设备联邦学习吗？

本文研究基于大规模公共数据和语言模型的差分隐私联邦学习，提出了一种新的分布匹配算法，以样本高效为目标，实现了基于公共数据训练私有模型的高效和有效的方法。

May, 2023

联邦大型语言模型：一篇立场论文

提出了联邦式大规模语言模型（LLM）的概念，并讨论了其三个关键组成部分：联邦式LLM预训练、联邦式LLM微调和联邦式LLM提示工程。还探讨了联邦学习和大规模语言模型整合所带来的新挑战，并分析了现有解决方案和潜在障碍。

Jul, 2023

大型语言模型的快速、高效、安全的分布式训练框架

提出了一种基于模型切片的安全分布式LLM方法，使用可信执行环境（TEE）在客户端和服务器端部署，并通过轻量级加密在TEE和一般环境中执行安全通信，进一步降低设备成本同时提高模型性能和准确性。

Jan, 2024

OpenFedLLM: 基于联邦学习在去中心化私有数据上训练大型语言模型

通过联邦学习的方式，利用分布式私有数据进行协作和隐私保护的大型语言模型（LLM）培训，相较于传统的本地培训方式，取得了明显的性能提升。

Feb, 2024

联邦大型语言模型中的隐私泄漏分析

我们的研究对联邦学习在训练大规模语言模型时的隐私分析进行了广泛的研究，从理论和实践角度设计了两种具有理论成功率的主动成员推断攻击，揭示了包括BERT、RoBERTa、DistilBERT和OpenAI的GPT在多个真实世界的语言数据集中存在的重大隐私漏洞，并评估了这些模型在采用最先进的差分隐私机制保护数据时的隐私泄漏情况。

Mar, 2024

大型语言模型上基于联邦领域专用知识迁移的合成数据使用

通过差分隐私，利用大型语言模型在私有领域数据上合成样本，并将其用于改进小型语言模型，通过联邦领域特定知识迁移框架(FDKT)在保护客户数据隐私的同时，提高小型语言模型的任务性能，实验结果表明与本地私有数据训练相比，在隐私预算小于10的情况下，SLMs的任务性能平均提升约5%。

May, 2024

全球联合训练语言模型

通过联邦学习，在全球范围内构建联邦的语言模型训练系统(WorldLM)，以解决大规模语言模型训练所面临的法律、安全、隐私等挑战，并通过局部模型本地化、残差层嵌入等方法，提升性能并保护隐私。

May, 2024

联邦大型语言模型：当前进展与未来方向

该研究解决了在数据收集过程中由于隐私问题导致的训练数据质量担忧。论文调研了联邦学习在大型语言模型中的应用，重点探讨了在联邦设置下细化和提示学习的研究挑战和现有工作，同时提出了未来研究方向，旨在提高模型的收敛性及降低通信成本。

Sep, 2024

FedDTPT：针对黑箱大语言模型的联邦离散与可转移提示调优

本研究解决了在集中式数据处理环境中调优大语言模型时存在的隐私泄漏问题，特别关注大语言模型本身的安全性。我们首次提出了一种联邦离散与可转移的提示调优方法FedDTPT，通过无梯度的优化方式和基于语义相似性的注意机制，显著提升了模型的准确性，降低了通信开销，并在黑箱设置下对非独立同分布数据展现了较强的鲁棒性。

Nov, 2024