大型语言模型联邦指导调优中涌现的安全攻击与防御

Jun, 2024

大型语言模型联邦指导调优中涌现的安全攻击与防御

Emerging Safety Attack and Defense in Federated Instruction Tuning of Large Language Models

Rui Ye, Jingyi Chai, Xiangrui Liu, Yaodong Yang, Yanfeng Wang...

TL;DR我们首次揭示了 FedIT 中安全对齐的漏洞，提出了一种简单、隐蔽但有效的安全攻击方法，并进一步提出了一种事后防御方法。实验证明，我们的安全攻击方法可以显著破坏 LLM 的安全对齐，而现有的防御方法无法有效防御，而我们的安全防御方法可以显著增强被攻击的 LLM 的安全对齐。

Abstract

federated learning (FL) enables multiple parties to collaboratively fine-tune an large language model (LLM) without the need of direct data sharing. Ideally, by training on decentralized data that is aligned with

federated learning large language model safety alignment safety attack defense methods

发现论文，激发创造

安全地使用私有数据：大规模语言模型的联邦学习框架

我们提出了一种用于大型语言模型的联邦学习框架 FL-GLM，通过在本地客户端放置输入块和输出块以防止来自服务器的嵌入梯度攻击，使用密钥加密来防止来自对端客户端的逆向工程攻击，并采用客户端批处理或服务器分层等优化方法来提高训练效率。通过在 NLU 和生成任务上的实验结果，证明了 FL-GLM 与集中式 chatGLM 模型具有可比较的指标，验证了我们的联邦学习框架的有效性。

Jun, 2024

大型语言模型的个性化无线联邦学习

基于大型语言模型的联邦学习方法，在无线网络中解决了隐私和安全保护机制不足的问题，并通过两种个性化无线联邦微调方法实现了低通信开销。

Apr, 2024

基于联邦学习的基础模型集成在对抗威胁下的漏洞

在现有的联邦学习（FL）框架存在数据不足和不平衡的情况下，基础模型（FMs）的出现为解决 FL 框架的局限性提供了潜在的解决方案，然而，由于 FMs 的固有安全问题，将 FMs 集成到 FL 中可能引入新的风险，为了解决这一问题，我们首次研究了整合 FM 的 FL（FM-FL）在对抗性威胁下的易损性，通过对图像和文本领域中着名模型和基准数据集的广泛实验，我们揭示了 FM-FL 对这种新威胁在各种 FL 配置下的高易感性，此外，我们发现现有的 FL 防御策略在防御这种新攻击方法方面提供了有限的保护，这项研究突出了在 FMs 时代的 FL 中增强安全措施的重要性。

Jan, 2024

构建联邦 GPT: 联邦指导调优

本文提出了一种基于联邦学习的指令调整方法，名为 FedIT，它可以利用客户端上存储的异构和多样化指令，保护隐私和确保数据安全，提高了 LLM 的性能，同时在 GitHub 上开发了名为 Shepherd 的基础框架，提供了探索异构指令下的联邦微调 LLM 的支持。

May, 2023

联邦学习攻击和防御：综述

本文系统总结了目前联邦学习系统中存在的各种攻击和针对性防御，包括学习和预测阶段中对不同角色的攻击，并分析了各种隐私和安全层面的防御机制，旨在为建立更加安全、稳定的联邦学习系统提供参考。

Nov, 2022

联邦学习攻击再探讨：对间隙、假设和评估方案的关键讨论

通过对攻击 FL 的 48 篇相关文章进行系统性的映射研究，我们提供了对所提出的攻击及其评估设置的定量分析。在此基础上，我们揭示了几个关于目标 ML 模型类型、架构和数据分布的研究空白，并提出了一些推荐以避免评估中存在的偏差并促进充分的评估。

Nov, 2021

TrustFed：一种具有恶意攻击抵抗能力的可靠联邦学习框架

提出了一种层次化审计的联邦学习（HiAudit-FL）框架，使用模型审计和参数审计两个阶段来增强学习过程的可靠性和安全性，并通过基于扩散模型的 AI-Enabled 审计选择策略（ASS）和深度强化学习（DRL）框架设计了高效的 DRL-ASS 算法来识别和处理潜在的恶意用户。

Dec, 2023

联邦学习的安全与隐私问题

分布式学习中的联邦学习存在安全和隐私挑战，本研究针对各类机器学习模型，包括大型语言模型，提出了安全和隐私挑战的综合分类，重点关注聚合器和参与者的攻击，包括投毒攻击、后门攻击、成员推断攻击、生成对抗网络攻击和差分隐私攻击，同时提出了未来研究的新方向，旨在强化联邦学习系统以应对新兴安全风险并保护分布式学习环境中的敏感数据隐私。

Jul, 2023

FedPIT: 面向隐私保护和少样本联邦指导调优

使用 Federated Instructioin Tuning（FedIT）方法，利用大型语言模型的上下文学习能力自动生成任务特定的合成数据进行训练，以提高联邦学习的 Few-shot 性能、保护隐私并对抗不同数据的异质性。

Mar, 2024

FedMLSecurity: 联邦学习和 LLM 攻防优化基准

本篇论文介绍了一个名为 FedMLSecurity 的基准测试，它模拟了联邦学习中的对抗性攻击和相应的防御机制，并证明了其可用于许多机器学习模型和优化器，可以轻松应用于大型语言模型中。

Jun, 2023