对多模态大型语言模型的安全进行评估、攻击和防御的系统性调查,包括对图像和文本上的安全问题的研究和讨论。
Feb, 2024
多模态大型语言模型(MLLMs)的整合增强了其功能,但也带来了安全漏洞,本研究旨在分析并总结 MLLMs 的攻击和防御机制,并提出未来研究的建议,以深化对 MLLM 安全挑战的学术理解和发展可信赖的 MLLM 系统。
Apr, 2024
利用多模态大语言模型对自动驾驶视频进行自动分析,以提高安全性和可靠性,确保准确、可靠和可操作的危险检测,并改善安全事件检测和复杂环境交互的理解。
Jun, 2024
本文介绍了 MLLMGuard,一个针对 MLLMs 的多维安全评估套件,包括双语图文评估数据集、推理工具和轻量级评估器。通过对隐私、偏见、有毒性、真实性和合法性等五个重要安全维度进行全面评估,结果表明 MLLMs 在安全和责任方面仍有很长的路要走。
通过建立 MultiTrust 综合基准,本研究通过对 21 种现代多模态大型语言模型的广泛实验,揭示了一些之前未开发的可信度问题与风险,强调了多模态性引入的复杂性,并强调提升其可靠性的先进方法的必要性。
提出了一个基于机器学习的软件组件开发安全成熟度模型,将安全实践沿着机器学习开发生命周期组织起来,并为每个实践建立了三个成熟度水平以促进产业与学术界之间更紧密的合作。
Jun, 2023
通过探索大型语言模型系统的四个关键模块,即接收提示的输入模块,基于丰富语料库的语言模型,用于开发和部署的工具链模块以及生成语言模型内容的输出模块,本文提出了一种综合分类方法,系统分析了每个模块可能涉及的潜在风险,并讨论了相应的缓解策略。此外,我们还回顾了流行基准以促进大型语言模型系统的风险评估。希望本文能帮助大型语言模型参与者从系统角度构建负责任的系统。
Jan, 2024
将新的模态集成到大型语言模型(LLMs)中,如视觉 - 语言模型(VLMs),在绕过现有的安全训练技术(如 SFT 和 RLHF)的同时创造了一个新的攻击面。我们通过在文本领域进行反学习来实现跨模态安全对齐,实验证明在 VLMs 中进行文本反学习显著减少攻击成功率(ASR)至少低于 8%,甚至在某些情况下低至近 2%,同时保留实用性。
May, 2024
大型语言模型在最近几年取得了迅猛的进展,其能力正在不断加速,通过各种基准测试,其能力接近于人类的水平。由于存在未解决的脆弱性和限制,人们在将这些模型应用于智能和安全关键应用之前需要谨慎。本文回顾了与 LLM 评估和脆弱性相关的最新文献,综合当前的研究进展,并帮助了解哪些进步对于在智能和安全关键应用中使用这些技术最为关键。这些脆弱性被分为十个高级类别,并与 LLM 的一个高级生命周期进行了叠加。还对一些常见的缓解措施进行了综述。
Dec, 2023
利用较小的大语言模型实现有害查询检测和安全响应,通过多任务学习机制融合两个任务到一个模型里,效果在公开的大语言模型上表现相当或超过有害查询检测和安全响应的性能。