BriefGPT.xyz
大模型
Ask
alpha
关键词
text-based attacks
搜索结果 - 2
大型视觉语言模型的白盒多模态越狱
通过对大规模视觉语言模型的攻击,我们提出了一种综合性的策略,该策略同时攻击文本和图像模态,以利用视觉语言模型内的更广泛的脆弱性。我们的实验结果表明,我们的通用攻击策略可以有效地越狱 MiniGPT-4,成功率达到 96%,突显了视觉语言模型
→
PDF
a month ago
提示信息不应视为机密信息:系统性地测量提示信息提取攻击的成功率
本文介绍了一种用于测量和攻击大型语言模型中 Prompt 的框架,通过实验展示了文本攻击可以高概率地成功提取 prompt。
PDF
a year ago
Prev
Next