Jun, 2024
大型语言模型联邦指导调优中涌现的安全攻击与防御
Emerging Safety Attack and Defense in Federated Instruction Tuning of Large Language Models
Rui Ye, Jingyi Chai, Xiangrui Liu, Yaodong Yang, Yanfeng Wang...
TL;DR我们首次揭示了 FedIT 中安全对齐的漏洞,提出了一种简单、隐蔽但有效的安全攻击方法,并进一步提出了一种事后防御方法。实验证明,我们的安全攻击方法可以显著破坏 LLM 的安全对齐,而现有的防御方法无法有效防御,而我们的安全防御方法可以显著增强被攻击的 LLM 的安全对齐。