Apr, 2024
JailBreakV-28K: 评估多模态大语言模型抵抗破解攻击的基准测试
JailBreakV-28K: A Benchmark for Assessing the Robustness of MultiModal Large Language Models against Jailbreak Attacks
Weidi Luo, Siyuan Ma, Xiaogeng Liu, Xiaoyu Guo, Chaowei Xiao
TL;DR本文研究了对抗大型多模态语言模型(MLLMs)的问题,通过引入 JailBreakV-28K 评估 LLM 越狱技术对 MLLM 的可迁移性,并评估了 MLLM 对多样越狱攻击的鲁棒性,结果表明 MLLM 存在来自文本处理功能的关键脆弱性,强调了未来在文本和图像输入方面解决 MLLM 对齐漏洞的迫切性。