clean-label attacks | BriefGPT

关键词clean-label attacks

搜索结果 - 4

EMNLP大型语言模型更具优势：探索生成式干净标签背门攻击对文本分类器的影响
我们研究了后门攻击，使用语言模型自动插入多样化的基于样式的触发器到文本中，并提出了一种毒素选择技术来改善攻击的效果，同时还描述了一种名为 REACT 的基线防御机制来缓解后门攻击。我们的评估结果表明 LLMBkd 攻击在各种样式上都能以高攻
PDF8 months ago
EMNLP增强注意力的背门攻击对基于 BERT 模型的影响
通过直接操纵注意力模式，我们提出了一种新颖的特洛伊注意力损失（TAL），以增强特洛伊行为，并提高攻击成功率和污染率，不仅适用于传统的脏标签攻击，还适用于更具挑战性的干净标签攻击。
PDF8 months ago
毒箭蛙：无训练数据情况下，低中毒率高攻击成功率的干净标签攻击
摘要：为了成功发动后门攻击，注入的数据需要正确标记；否则，即使基本的数据过滤器也很容易被检测到。因此，引入了无标签攻击的概念，这更加危险，因为它不需要更改注入数据的标签。我们提出了一种称为 “Poison Dart Frog” 的新型无标签
PDFa year ago
基于提示的后门攻击：探究语言模型的漏洞
本研究提出了一种名为 ProAttack 的新方法，用于在不使用外部触发器的情况下基于提示执行干净标签的后门攻击，从而对模型引入有针对性的漏洞，该方法使用提示本身作为触发器，并确保正确标记给定的样本，可以提高后门攻击的隐蔽性。
PDFa year ago