BriefGPT.xyz
大模型
Ask
alpha
关键词
poisoned data
搜索结果 - 5
ACL
多语言机器翻译的后门攻击
多语言机器翻译系统存在安全漏洞,通过在低资源语言对中注入毒数据,可以在其他语言中引发恶意翻译,攻击成功率达到 20%。这种攻击方式对低资源语言具有更大的攻击面,希望引起人们对机器翻译系统的安全问题的重视,尤其是在低资源语言环境中。
PDF
3 months ago
ImgTrojan: 用一张图像越狱视觉 - 语言模型
本文提出了一种针对视觉语言模型的新型越狱攻击方法,通过替换原始文本标题为恶意越狱提示,来攻击包含恶意图像的视觉语言模型。通过分析毒素比例和可训练参数位置对攻击成功率的影响,我们设计了两个指标来量化攻击的成功率和隐秘性,提供了一个用于测量攻击
→
PDF
4 months ago
EMNLP
两个简单技巧使得文本后门攻击更加有害
本文针对深度学习领域的后门攻击进行研究,通过添加训练任务以区分被污染数据和干净数据,以及使用原有的干净数据进行攻击,提高攻击效果,并在三种场景下进行了实验验证。
PDF
3 years ago
源代码神经模型中的后门
本文介绍了如何在源代码任务中注入后门 (backdoors),并证明了如何使用鲁棒统计学算法来检测恶意数据。
PDF
4 years ago
AAAI
隐蔽触发后门攻击
本研究提出一种新颖的深度学习后门攻击方式,攻击者能够在训练过程中提供正常标注的毒瘤数据,并在毒瘤数据中隐藏触发器,待测试时再激活攻击,从而欺骗模型,而该攻击方式无法轻易通过最先进的后门攻击的防御算法进行防御。
PDF
5 years ago
Prev
Next