欺骗性提示对多模态语言模型的迷惑程度实证分析

Feb, 2024

欺骗性提示对多模态语言模型的迷惑程度实证分析

How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts

Yusu Qian, Haotian Zhang, Yinfei Yang, Zhe Gan

TL;DR通过 Quantum-Bench，我们比较了多种先进模型在对抗伪信息的能力上的表现，并提出了通过增加伪信息以增强模型韧性的建议。

Abstract

The remarkable advancements in multimodal large language models (MLLMs) have not rendered them immune to challenges, particularly in the context of handling deceptive information in prompts, thus producing halluc

multimodal large language models mad-bench deceptive information performance gaps resilience

发现论文，激发创造

支持现实世界事实核查的多模态大型语言模型

对多模态大型语言模型在事实检查方面的能力和局限性进行了系统评估，发现 GPT-4V 在识别恶意和误导性多模态论断方面表现出优越性能，具备解释不合理方面和潜在动机的能力，同时已有的开源模型存在强烈的偏见，并对提示非常敏感。这项研究为对抗虚假多模态信息和构建安全可靠的多模态模型提供了启示，据我们所知，这是第一次对多模态大型语言模型进行真实世界事实检查的评估。

Mar, 2024

基于多模态大语言模型的联合视觉与文本提示改善目标中心感知

使用视觉和文本提示的新方法 (VTPrompt) 提高了 Multimodal Large Language Models 在物体感知方面的能力，并在三个基准测试上表现出显著的改进。

Apr, 2024

探索 LLM 生成的虚假新闻的欺骗力：对现实世界检测挑战的研究

最近大规模语言模型（LLMs）的进展使得虚假新闻的制造成为可能，本研究旨在确定提示技术是否能够有效缩小 LLM 生成的虚假新闻的欺骗性差距，通过提出一种名为条件变分自编码类提示（VLPrompt）的强大虚假新闻攻击方法，该方法无需额外的数据采集，并且保持了上下文的一致性和原始文本的细节。为了推动 VLPrompt 攻击的检测研究，我们创建了一个新的数据集名为 VLPrompt 虚假新闻（VLPFN），其中包含真实文本和假文本。我们进行了各种检测方法和新颖的人类研究指标的实验，来评估它们在我们的数据集上的性能，得出了众多发现。

Mar, 2024

MLLM-Bench，使用 GPT-4V 评估多模式 LLMs

为了追求人工通用智能（AGI），将视觉集成到语言模型中标志着一个重要里程碑。视觉语言模型（MLLMs）的出现，如 GPT-4V，扩展了人工智能应用程序，与人脑的多模态能力相匹配。然而，评估 MLLMs 的有效性面临着重大挑战，因为缺乏确定性答案的任务具有主观性。现有的多模态大型语言模型的自动评估方法依赖于具有标准答案的客观查询，并未充分解决创造性和联想性多模态任务的细微差别。为了解决这个问题，我们引入了 MLLM-Bench，这是一个受 Vicuna 启发的创新基准，涵盖了各种场景，包括感知、理解、应用、分析、评估和创作，以及伦理考虑。MLLM-Bench 的设计更加准确地反映用户体验，并提供了对模型性能更全面的评估。对比评估结果表明，现有的开源模型和 GPT-4V 之间存在显著的性能差距。我们认为，MLLM-Bench 将推动开源社区在开发能满足广泛实际应用需求的用户导向视觉语言模型方面取得进展。请访问 https://mllm-bench.llmzoo.com 查看在线排行榜。

Nov, 2023

PromptBench：评估大型语言模型对对抗性提示的鲁棒性

本研究使用 adversarial prompts 对 Large Language Models 进行度量，并分析了 prompt 鲁棒性及其传递性，为 prompt 组合提供了实用性建议。

Jun, 2023

MM-PhyQA：多模态物理问题回答与多图 CoT 提示

利用现有模型对多步骤物理推理任务进行评估，通过引入多模态元素的高中级别物理问题的新数据集 MM-PhyQA，测试了包括 GPT-4 和 LLaVA 在内的多个大型语言模型的性能，并展示了基于 MI-CoT 提示技术的 LLaVA-1.5 13b 模型在测试集上的最佳结果，具有最高的 71.65% 准确率。

Apr, 2024

多模态大型语言模型对图像质量评估的全面研究

通过对多模态大语言模型（MLLMs）在图像质量评估（IQA）中的应用进行综合系统的研究和探索，发现仅有关闭源 GPT-4V 能够合理地描述人类对图像质量的感知，但在细粒度的质量变化（如颜色差异）和多图像的视觉质量比较等任务上较为薄弱。

Mar, 2024

研究 LLM 对数学问题的鲁棒性

提出了一种提示框架，通过添加无关的变量生成数学应用问题的对抗性变体，用于改进大型语言模型在数学应用问题中的性能下降问题。实验证明，对抗性训练实例的微调提高了对抗性数学应用问题的性能，并提高了识别相关数据进行推理的能力。然而，大型语言模型在面对对抗性信息时仍然存在困难，导致性能下降。

May, 2024

利用预测提示和大型语言模型生成多项选择题干扰项

通过从题库自动检索题目并将其用作合适的上下文示例，本研究提出了一种引导 ChatGPT 等大型语言模型生成相关干扰项的策略，通过对现有测试集进行数量评估和教师质量评注，我们发现教师评价中有 53% 的生成干扰项被评为高质量，即可立即使用，优于最先进的模型，与零样本 ChatGPT 和少样本 ChatGPT 通过静态示例进行比较，显示了我们方法在生成高质量干扰项方面的优势。

Jul, 2023

评估大规模视觉语言模型的对抗鲁棒性

本研究评估了开源大型视觉 - 语言模型的鲁棒性，发现黑盒查询可以进一步提高定向逃避的效果。研究结果为大型视觉 - 语言模型的敌对脆弱性提供了量化的理解，并呼吁在实际部署之前对它们的潜在安全漏洞进行更全面的研究。

May, 2023