defense approaches | BriefGPT

关键词defense approaches

搜索结果 - 5

大型语言模型中的对抗攻击与防御：旧与新的威胁
过去十年来，人们对神经网络的鲁棒性进行了广泛的研究，但这个问题依然没有得到很好的解决。在这篇论文中，我们提出了改进新方法的鲁棒性评估和减少错误评估的第一组先决条件，同时指出了面向开源模型中恶意内容生成的嵌入空间攻击作为另一个可行的威胁模型。
PDF8 months ago
ACL不需重新训练，只需改写：通过改写文本来抵御对抗样本
ATINTER 是一种模型，可以截获和学习重写对下游文本分类器产生对抗性影响的输入，有效提供更好的对抗性鲁棒性。
PDFa year ago
通过负相关模型集成来防御对抗样本
该论文提出一个名为 NCEn 的新的集成防御方法，通过将每个成员的梯度方向和梯度幅度负相关地引入，同时减少它们之间对抗性示例的可传递性，以提高集合的对抗鲁棒性。
PDF2 years ago
EMNLP寻找有效的防御者：针对对抗性词语替换的防御基准测试
本文主要对深度神经网络在对抗攻击下的鲁棒性进行了研究，比较并提出了各种防御方法，最终提出了一种有效的方法提高神经文本分类器的鲁棒性，并在 AGNEWS 和 IMDB 数据集上取得了显著的最高准确率。
PDF3 years ago
MULDEF: 多模型防御神经网络的对抗性样本
提出了基于多模型的鲁棒性多样性的新型防御方法 MulDef，通过构建模型家族实现鲁棒性多样性，该方法在白盒攻击方案中可以在保持类似准确率的情况下，将目标模型对抗性样本的准确率提高 22-74％。
PDF6 years ago