BriefGPT.xyz
大模型
Ask
alpha
关键词
jailbreaking attack
搜索结果 - 1
ImgTrojan: 用一张图像越狱视觉 - 语言模型
本文提出了一种针对视觉语言模型的新型越狱攻击方法,通过替换原始文本标题为恶意越狱提示,来攻击包含恶意图像的视觉语言模型。通过分析毒素比例和可训练参数位置对攻击成功率的影响,我们设计了两个指标来量化攻击的成功率和隐秘性,提供了一个用于测量攻击
→
PDF
4 months ago
Prev
Next