Apr, 2024

GPT-4V 挑战红队测试:是否能抵御 Uni/Multi-Modal 越狱攻击?

TL;DR通过建立全面的 1445 个有害问题的评估数据集,本研究对 11 个不同的大型语言模型和多模式大型语言模型进行了广泛的试验,发现 GPT-4 和 GPT-4V 相对于开源的大型语言模型和多模式大型语言模型表现出更好的恶意入侵攻击耐受性,而 Llama2 和 Qwen-VL-Chat 相对于其他开源模型表现出更高的鲁棒性,并且相对于文本恶意入侵攻击方法,视觉恶意入侵攻击方法的可迁移性相对有限。