安全多模学习系统调查

Feb, 2024

A Survey on Safe Multi-Modal Learning System

Tianyi Zhao, Liangliang Zhang, Yao Ma, Lu Cheng

TL;DR对于多模态学习系统（MMLS），缺乏系统性的安全性研究已成为其发展的重大障碍。本文提出了首个 MMLS 安全性分类法，并从四个关键方面深入探讨了其安全性问题及现有研究的限制，最后指出了 MMLS 安全性面临的独特挑战和未来研究的潜在方向。

Abstract

With the wide deployment of multimodal learning systems (MMLS) in real-world scenarios, safety concerns have become increasingly prominent. The absence of systematic research into their safety is a significant ba

multimodal learning systems safety concerns taxonomy limitations future research

发现论文，激发创造

多模态大型语言模型在图像和文本上的安全性

对多模态大型语言模型的安全进行评估、攻击和防御的系统性调查，包括对图像和文本上的安全问题的研究和讨论。

Feb, 2024

狂放的伊卡洛斯：多模态大语言模型安全中图像输入的潜在危险调研

多模态大型语言模型（MLLMs）的整合增强了其功能，但也带来了安全漏洞，本研究旨在分析并总结 MLLMs 的攻击和防御机制，并提出未来研究的建议，以深化对 MLLM 安全挑战的学术理解和发展可信赖的 MLLM 系统。

Apr, 2024

基于多模式大型语言模型的交通安全关键事件自动检测

利用多模态大语言模型对自动驾驶视频进行自动分析，以提高安全性和可靠性，确保准确、可靠和可操作的危险检测，并改善安全事件检测和复杂环境交互的理解。

Jun, 2024

MLLMGuard：多模态大型语言模型的多维安全评估套件

本文介绍了 MLLMGuard，一个针对 MLLMs 的多维安全评估套件，包括双语图文评估数据集、推理工具和轻量级评估器。通过对隐私、偏见、有毒性、真实性和合法性等五个重要安全维度进行全面评估，结果表明 MLLMs 在安全和责任方面仍有很长的路要走。

Jun, 2024

多模态大型语言模型可信度评估：一项全面研究

通过建立 MultiTrust 综合基准，本研究通过对 21 种现代多模态大型语言模型的广泛实验，揭示了一些之前未开发的可信度问题与风险，强调了多模态性引入的复杂性，并强调提升其可靠性的先进方法的必要性。

Jun, 2024

MLSMM: 机器学习安全成熟度模型

提出了一个基于机器学习的软件组件开发安全成熟度模型，将安全实践沿着机器学习开发生命周期组织起来，并为每个实践建立了三个成熟度水平以促进产业与学术界之间更紧密的合作。

Jun, 2023

大型语言模型系统的风险分类、缓解和评估基准

通过探索大型语言模型系统的四个关键模块，即接收提示的输入模块，基于丰富语料库的语言模型，用于开发和部署的工具链模块以及生成语言模型内容的输出模块，本文提出了一种综合分类方法，系统分析了每个模块可能涉及的潜在风险，并讨论了相应的缓解策略。此外，我们还回顾了流行基准以促进大型语言模型系统的风险评估。希望本文能帮助大型语言模型参与者从系统角度构建负责任的系统。

Jan, 2024

跨模态安全对齐：文本消除是否足够？

将新的模态集成到大型语言模型（LLMs）中，如视觉 - 语言模型（VLMs），在绕过现有的安全训练技术（如 SFT 和 RLHF）的同时创造了一个新的攻击面。我们通过在文本领域进行反学习来实现跨模态安全对齐，实验证明在 VLMs 中进行文本反学习显著减少攻击成功率（ASR）至少低于 8％，甚至在某些情况下低至近 2％，同时保留实用性。

May, 2024

多模态知识提取与分析中的 LLMs 在智能 / 安全关键应用中的应用

大型语言模型在最近几年取得了迅猛的进展，其能力正在不断加速，通过各种基准测试，其能力接近于人类的水平。由于存在未解决的脆弱性和限制，人们在将这些模型应用于智能和安全关键应用之前需要谨慎。本文回顾了与 LLM 评估和脆弱性相关的最新文献，综合当前的研究进展，并帮助了解哪些进步对于在智能和安全关键应用中使用这些技术最为关键。这些脆弱性被分为十个高级类别，并与 LLM 的一个高级生命周期进行了叠加。还对一些常见的缓解措施进行了综述。

Dec, 2023

SLM 作为守护者：先驱性地利用小型语言模型进行人工智能安全

利用较小的大语言模型实现有害查询检测和安全响应，通过多任务学习机制融合两个任务到一个模型里，效果在公开的大语言模型上表现相当或超过有害查询检测和安全响应的性能。

May, 2024