Oct, 2023
大型语言模型中的对抗攻击与防御:旧与新的威胁
Adversarial Attacks and Defenses in Large Language Models: Old and New
Threats
TL;DR过去十年来,人们对神经网络的鲁棒性进行了广泛的研究,但这个问题依然没有得到很好的解决。在这篇论文中,我们提出了改进新方法的鲁棒性评估和减少错误评估的第一组先决条件,同时指出了面向开源模型中恶意内容生成的嵌入空间攻击作为另一个可行的威胁模型。最后,我们通过一个最近提出的防御方法进行演示,展示了在没有针对大型语言模型的最佳实践的情况下,过高估计新方法的鲁棒性的容易性。