对大型多模态模型进行常见冲突的基准测试

Jan, 2024

对大型多模态模型进行常见冲突的基准测试

Benchmarking Large Multimodal Models against Common Corruptions

Jiawei Zhang, Tianyu Pang, Chao Du, Yi Ren, Bo Li...

TL;DR填补大型多模型（LMMs）评估中的不足，通过研究其输出在常见破坏情况下的自一致性，调查文本、图像和语音之间的跨模态交互，创建了一个综合性基准 MMCbench，评估了 100 多个受欢迎的 LMMs（共 150 个模型检查点），此全面评估对于实际部署至关重要，并有助于更好地了解顶尖 LMMs 的可靠性。

Abstract

This technical report aims to fill a deficiency in the assessment of large multimodal models (LMMs) by specifically examining the self-consistency of their outputs when subjected to common corruptions. We investi

large multimodal models self-consistency cross-modal interactions mmcbench common corruptions

发现论文，激发创造

多模态大型语言模型可信度评估：一项全面研究

通过建立 MultiTrust 综合基准，本研究通过对 21 种现代多模态大型语言模型的广泛实验，揭示了一些之前未开发的可信度问题与风险，强调了多模态性引入的复杂性，并强调提升其可靠性的先进方法的必要性。

Jun, 2024

MM-BigBench：评估多模态模型在多模态内容理解任务上的表现

通过使用全面的评估框架 MM-BigBench，本文综合评估了 20 个语言模型（包括 14 个多模态大型语言模型）在 14 个多模态数据集上的性能，并通过引入新的指标，对不同模型和指令之间的性能以及适应性进行了评估。

Oct, 2023

多重破损：一个用于三维物体检测的 LiDAR - 相机融合的多模式鲁棒性数据集和基准

通过评估多模态 3D 目标检测器在多种数据扰动下的稳健性，我们发现现有方法的鲁棒性与扰动类型和融合策略密切相关，为多模态设计选择提供了洞察。

Feb, 2024

MMBench: 您的多模型是否是全能选手？

提出了一种新的多模式基准测试方法 MMBench，通过精心策划的数据集和结合 CircularEval 策略和 ChatGPT 的方法来对大视觉语言模型进行综合评估，旨在帮助研究社区更好地评估其模型以及鼓励未来的进步。

Jul, 2023

MMFakeBench: 用于 LVLM 的混合源多模态虚假信息检测基准

当前的多模态误信息检测（MMD）方法通常假设每个样本只有一个来源和一种伪造类型，这对于存在多个伪造来源的现实场景是不足够的。缺乏混合来源误信息的基准已经妨碍了这个领域的进展。为了解决这个问题，我们引入了 MMFakeBench，这是第一个全面的混合来源 MMD 基准。MMFakeBench 包括文本真实性失真、视觉真实性失真和跨模态一致性失真这三个关键来源，以及 12 个不同类别的误信息伪造类型。我们在零 - shot 设置下对 MMFakeBench 进行了 6 种流行的检测方法和 15 个大规模视觉语言模型（LVLMs）的广泛评估。结果表明，当前的方法在这个具有挑战性和现实的混合来源 MMD 环境下表现不佳。此外，我们提出了一种创新的统一框架，将 LVLM 智能体的逻辑、行动和工具使用能力相结合，显著提高了准确性和概括能力。我们相信这项研究将推动未来对更加真实的混合来源多模态误信息的研究，并提供对误信息检测方法的公正评估。

Jun, 2024

GlitchBench：大型多模型能否检测视频游戏故障？

将视频游戏的质量保证任务应用于大型多模式模型，通过 GlitchBench 评估其视觉理解和推理能力的挑战。

Dec, 2023

MM-SpuBench: 对多模态 LLMs 中偶发偏见的更好理解

在深度学习模型中，单一模态数据的训练容易导致假的偏见，而多模态大型语言模型（MLLMs）在综合视觉和语言模型方面展示了强大的能力。本文分析了 MLLMs 中的假偏见，揭示了当视觉模型中的偏见影响 MLLMs 中视觉和文本符号之间的对齐时，特定的测试数据模式会表现出这一问题，并通过引入 MM-SpuBench、一个全面的视觉问答（VQA）评估基准，从五个开源图像数据集中评估了现有最先进的 MLLMs。我们的研究结果显示了这些模型对于假关联的依赖性的持久存在，并强调了减轻假的偏见的新方法的迫切性。为了支持 MLLMs 的稳健性研究，我们在该网址发布了我们的 VQA 基准。

Jun, 2024

BenchLMM：大型多模态模型的跨风格视觉能力基准测试

在本文中，我们提出了一个新的基准测试 BenchLMM，以评估大型多模态模型（LMMs）对不同的样式变化的鲁棒性，研究发现：1）LMMs 在使用其他样式时普遍性能下降；2）一个 LMM 在普通样式方面表现更好，并不意味着在其他样式方面也会表现更好；3）通过先提示 LMMs 预测样式可以增强其推理能力，我们提出了一种通用且无需训练的方法来改进 LMMs；4）当面对风格变化时，期望智能 LMM 能够解释其错误的原因。我们希望我们的基准测试和分析能够为开发更智能和通用的 LMMs 提供新思路。

Dec, 2023

MM-Soc: 社交媒体平台上多模态大型语言模型的基准测试

社交媒体是多模态信息交流的中心，包括文本、图片和视频，这对机器来理解在线空间中的信息或情感相关的交互构成了挑战。本文介绍了 MM-Soc，一个综合性基准，旨在评估多模态大型语言模型对多模态社交媒体内容的理解能力。通过我们对四个开源多模态大型语言模型的十个规模变体的详尽评估，我们发现了重要的性能差异，突出了模型在社交理解能力方面的改进需求。

Feb, 2024

明辨视界，难答问题：基于多模态鲁棒性的机器学习语言模型评估

通过提出一个多模态鲁棒性评估基准以及一个训练集，我们发现多模态大型语言模型在理解视觉内容方面存在脆弱性，而这种脆弱性可以通过在新的训练集上进行微调来显著增强。

Jun, 2024