BriefGPT.xyz
Ask
alpha
关键词
harmlessness alignment problem
搜索结果 - 1
图像是对齐的弱点:利用视觉漏洞对跨模态大型语言模型进行越狱
研究了多模态大型语言模型(MLLMs)的无害对齐问题,通过对代表性 MLLMs 的无害性能进行系统的实证分析,揭示了图像输入对 MLLMs 的对准易受攻击的弱点。在此基础上,提出了一种名为 HADES 的新型越狱方法,利用精心制作的图像隐藏
→
PDF
4 months ago
Prev
Next