poisoned data | BriefGPT - AI 论文速递

关键词poisoned data

搜索结果 - 5

ACL多语言机器翻译的后门攻击
多语言机器翻译系统存在安全漏洞，通过在低资源语言对中注入毒数据，可以在其他语言中引发恶意翻译，攻击成功率达到 20%。这种攻击方式对低资源语言具有更大的攻击面，希望引起人们对机器翻译系统的安全问题的重视，尤其是在低资源语言环境中。
PDF4 months ago
ImgTrojan: 用一张图像越狱视觉 - 语言模型
本文提出了一种针对视觉语言模型的新型越狱攻击方法，通过替换原始文本标题为恶意越狱提示，来攻击包含恶意图像的视觉语言模型。通过分析毒素比例和可训练参数位置对攻击成功率的影响，我们设计了两个指标来量化攻击的成功率和隐秘性，提供了一个用于测量攻击
PDF5 months ago
EMNLP两个简单技巧使得文本后门攻击更加有害
本文针对深度学习领域的后门攻击进行研究，通过添加训练任务以区分被污染数据和干净数据，以及使用原有的干净数据进行攻击，提高攻击效果，并在三种场景下进行了实验验证。
PDF3 years ago
源代码神经模型中的后门
本文介绍了如何在源代码任务中注入后门 (backdoors)，并证明了如何使用鲁棒统计学算法来检测恶意数据。
PDF4 years ago
AAAI隐蔽触发后门攻击
本研究提出一种新颖的深度学习后门攻击方式，攻击者能够在训练过程中提供正常标注的毒瘤数据，并在毒瘤数据中隐藏触发器，待测试时再激活攻击，从而欺骗模型，而该攻击方式无法轻易通过最先进的后门攻击的防御算法进行防御。
PDF5 years ago