May, 2024
Visual-RolePlay: 多模态大型语言模型上的通用越狱攻击:通过角色扮演图像人物
Visual-RolePlay: Universal Jailbreak Attack on MultiModal Large Language Models via Role-playing Image Characte
Siyuan Ma, Weidi Luo, Yu Wang, Xiaogeng Liu, Muhao Chen...
TL;DR利用多模态大型语言模型的结构化越狱攻击,通过视觉角色扮演 (VRP) 方法,在高风险角色的详细描述和对应图像的生成中,有效地误导模型以产生恶意回应,并在多个模型中表现出 14.3% 的攻击成功率优势。