Jun, 2024

大型语言模型联邦指导调优中涌现的安全攻击与防御

TL;DR我们首次揭示了 FedIT 中安全对齐的漏洞,提出了一种简单、隐蔽但有效的安全攻击方法,并进一步提出了一种事后防御方法。实验证明,我们的安全攻击方法可以显著破坏 LLM 的安全对齐,而现有的防御方法无法有效防御,而我们的安全防御方法可以显著增强被攻击的 LLM 的安全对齐。