BriefGPT.xyz
Ask
alpha
关键词
safety attack
搜索结果 - 1
大型语言模型联邦指导调优中涌现的安全攻击与防御
我们首次揭示了 FedIT 中安全对齐的漏洞,提出了一种简单、隐蔽但有效的安全攻击方法,并进一步提出了一种事后防御方法。实验证明,我们的安全攻击方法可以显著破坏 LLM 的安全对齐,而现有的防御方法无法有效防御,而我们的安全防御方法可以显著
→
PDF
21 days ago
Prev
Next