May, 2024

Visual-RolePlay: 多模态大型语言模型上的通用越狱攻击:通过角色扮演图像人物

TL;DR利用多模态大型语言模型的结构化越狱攻击,通过视觉角色扮演 (VRP) 方法,在高风险角色的详细描述和对应图像的生成中,有效地误导模型以产生恶意回应,并在多个模型中表现出 14.3% 的攻击成功率优势。