Apr, 2024

JailBreakV-28K: 评估多模态大语言模型抵抗破解攻击的基准测试

TL;DR本文研究了对抗大型多模态语言模型(MLLMs)的问题,通过引入JailBreakV-28K评估LLM越狱技术对MLLM的可迁移性,并评估了MLLM对多样越狱攻击的鲁棒性,结果表明MLLM存在来自文本处理功能的关键脆弱性,强调了未来在文本和图像输入方面解决MLLM对齐漏洞的迫切性。