多模态大型语言模型在图像和文本上的安全性

Feb, 2024

多模态大型语言模型在图像和文本上的安全性

Safety of Multimodal Large Language Models on Images and Text

Xin Liu, Yichen Zhu, Yunshi Lan, Chao Yang, Yu Qiao

TL;DR对多模态大型语言模型的安全进行评估、攻击和防御的系统性调查，包括对图像和文本上的安全问题的研究和讨论。

Abstract

Attracted by the impressive power of multimodal large language models (MLLMs), the public is increasingly utilizing them to improve the efficiency of daily work. Nonetheless, the vulnerabilities of MLLMs to unsafe instructions bring huge →

multimodal large language models safety evaluation attack defense

发现论文，激发创造

狂放的伊卡洛斯：多模态大语言模型安全中图像输入的潜在危险调研

多模态大型语言模型（MLLMs）的整合增强了其功能，但也带来了安全漏洞，本研究旨在分析并总结 MLLMs 的攻击和防御机制，并提出未来研究的建议，以深化对 MLLM 安全挑战的学术理解和发展可信赖的 MLLM 系统。

Apr, 2024

MLLMGuard：多模态大型语言模型的多维安全评估套件

本文介绍了 MLLMGuard，一个针对 MLLMs 的多维安全评估套件，包括双语图文评估数据集、推理工具和轻量级评估器。通过对隐私、偏见、有毒性、真实性和合法性等五个重要安全维度进行全面评估，结果表明 MLLMs 在安全和责任方面仍有很长的路要走。

Jun, 2024

MLLM-Protector：确保 MLLM 安全性而不影响性能

为了应对多模式大型语言模型的安全性方面尚未解决的问题，我们提出了 MLLM-Protector，一种结合了轻量级有害检测器和响应解毒剂的即插即用策略。通过该策略，我们有效地减轻了恶意视觉输入带来的风险，同时不影响模型的整体性能。

Jan, 2024

查询相关图像：大型多模态模型越狱

我们用一种新的视觉提示攻击方法，通过利用与查询相关的图像来越狱开源的大型多模型模型 (LMMs)。我们的研究表明，即使采用了安全对齐的大型语言模型，我们的方法也能轻松攻击 LLMs。通过使用我们提出的攻击技术，我们编制了一个大规模数据集，评估了 12 种先进的 LMMs 在 13 种情景中的弱点，这凸显了存在对抗性攻击的多模型模型的脆弱性。这一发现加强了我们对加强开源 LMMs 安全措施以防止潜在恶意利用的需求。

Nov, 2023

跨任务防御：面向内容安全的指令调优语言模型

我们的研究旨在针对恶意文件开发强大的大型语言模型（LLMs）防御机制，并通过指导调整来提高它们处理危险内容的能力，同时维持其效用和安全之间的平衡。在我们的实证结果中，LLMs 可以通过适当的指导调整显著增强它们处理危险内容的能力。此外，加强易受滥用任务的防御策略对于保护 LLMs 免受处理有害信息的影响是有效的。我们还观察到防御策略中存在效用与安全之间的权衡，其中采用我们提出的方法的 Llama2 相比 Llama1 具有更好的平衡。

May, 2024

跨模态越狱与医疗多模态大语言模型的不匹配攻击

介绍了 MedMLLMs（医学环境下的多模态大型语言模型）的安全漏洞，并提出了两种攻击类型（2M-attack 和 O2M-attack），并通过构建 3MAD 数据集进行评估，指出即使设计具有增强安全功能的 MedMLLMs 也存在安全漏洞，强调了在医疗环境中实施强大安全措施和增强开源 MedMLLMs 的安全性的紧迫性。

May, 2024

多模态知识提取与分析中的 LLMs 在智能 / 安全关键应用中的应用

大型语言模型在最近几年取得了迅猛的进展，其能力正在不断加速，通过各种基准测试，其能力接近于人类的水平。由于存在未解决的脆弱性和限制，人们在将这些模型应用于智能和安全关键应用之前需要谨慎。本文回顾了与 LLM 评估和脆弱性相关的最新文献，综合当前的研究进展，并帮助了解哪些进步对于在智能和安全关键应用中使用这些技术最为关键。这些脆弱性被分为十个高级类别，并与 LLM 的一个高级生命周期进行了叠加。还对一些常见的缓解措施进行了综述。

Dec, 2023

LLM 会话安全的攻击、防御和评估：一项调研

现在普遍存在大型语言模型在对话应用中的应用。然而，它们被滥用来生成有害回复的风险引起了严重的社会关注，并引发了关于大型语言模型对话安全的最新研究。因此，在这项调查中，我们提供了最近研究的综述，涵盖了大型语言模型对话安全的三个关键方面：攻击、防御和评估。我们的目标是提供一个结构化的概述，以增进对大型语言模型对话安全的理解，并鼓励对这个重要主题进行进一步的研究。为了方便参考，我们根据我们的分类法对本调查中提到的所有研究进行了分类。分类信息可在此 https URL 查看。

Feb, 2024

基于多模式大型语言模型的交通安全关键事件自动检测

利用多模态大语言模型对自动驾驶视频进行自动分析，以提高安全性和可靠性，确保准确、可靠和可操作的危险检测，并改善安全事件检测和复杂环境交互的理解。

Jun, 2024

基于验证和验证的视角对大型语言模型的安全性和可信度进行调查

本文介绍了大语言模型（LLMs）在人工智能领域的应用。主要探讨了 LLMs 的安全性和可靠性问题，并对经典软件和深度学习模型如卷积神经网络的验证和验证技术进行了综述和扩展，以提供对 LLMs 及其应用程序的安全性和可靠性的严格分析。

May, 2023