MFC-Bench: 基于大型视觉 - 语言模型的多模态事实核查基准测试

Jun, 2024

MFC-Bench: 基于大型视觉 - 语言模型的多模态事实核查基准测试

MFC-Bench: Benchmarking Multimodal Fact-Checking with Large Vision-Language Models

Shengkang Wang, Hongzhan Lin, Ziyang Luo, Zhen Ye, Guang Chen...

TL;DR通过评估 MFC-Bench 对 12 个各异而代表性的大型视觉 - 语言模型进行了基准测试，发现当前模型在多模态事实核查方面仍存在不足，并对各种形式的操纵内容表现出麻木，希望通过 MFC-Bench 能够引起对未来可能由大型视觉 - 语言模型辅助的可信人工智能的关注。

Abstract

large vision-language models (LVLMs) have significantly improved multimodal reasoning tasks, such as visual question answering and image captioning. These models embed multimodal facts within their parameters, rather than relying on external knowledge bases to store factual information

large vision-language models multimodal reasoning tasks mfc-bench multimodal fact-checking factual accuracy

发现论文，激发创造

MMT-Bench：一个综合评估大型视觉语言模型向多任务人工通用智能发展的多模态基准

该研究介绍了 MMT-Bench，这是一个综合性评估基准，旨在评估大规模视觉 - 语言模型（LVLM）在多种跨领域的多模态任务上的能力，并促进下一代通用多模态智能基础模型的发展。

Apr, 2024

支持现实世界事实核查的多模态大型语言模型

对多模态大型语言模型在事实检查方面的能力和局限性进行了系统评估，发现 GPT-4V 在识别恶意和误导性多模态论断方面表现出优越性能，具备解释不合理方面和潜在动机的能力，同时已有的开源模型存在强烈的偏见，并对提示非常敏感。这项研究为对抗虚假多模态信息和构建安全可靠的多模态模型提供了启示，据我们所知，这是第一次对多模态大型语言模型进行真实世界事实检查的评估。

Mar, 2024

MMFakeBench: 用于 LVLM 的混合源多模态虚假信息检测基准

当前的多模态误信息检测（MMD）方法通常假设每个样本只有一个来源和一种伪造类型，这对于存在多个伪造来源的现实场景是不足够的。缺乏混合来源误信息的基准已经妨碍了这个领域的进展。为了解决这个问题，我们引入了 MMFakeBench，这是第一个全面的混合来源 MMD 基准。MMFakeBench 包括文本真实性失真、视觉真实性失真和跨模态一致性失真这三个关键来源，以及 12 个不同类别的误信息伪造类型。我们在零 - shot 设置下对 MMFakeBench 进行了 6 种流行的检测方法和 15 个大规模视觉语言模型（LVLMs）的广泛评估。结果表明，当前的方法在这个具有挑战性和现实的混合来源 MMD 环境下表现不佳。此外，我们提出了一种创新的统一框架，将 LVLM 智能体的逻辑、行动和工具使用能力相结合，显著提高了准确性和概括能力。我们相信这项研究将推动未来对更加真实的混合来源多模态误信息的研究，并提供对误信息检测方法的公正评估。

Jun, 2024

KNVQA：用于评估基于知识的视觉问答的基准

该研究论文提出了一种新的知识驱动图像问答（KNVQA）评估方法，以解决大型视觉 - 语言模型在现实场景中存在的物体虚构和事实准确性两个关键问题，并开发了相应的 KNVQA 数据集进行评估，从而有效评估现有方法的细粒度能力并为大型视觉 - 语言模型的进一步优化提供潜在思路。

Nov, 2023

眼见不一定全是实情：多模态大语言模型因果推理能力的基准测试

基于现有多模态大型语言模型 (MLLMs) 在视觉问答评测方面的认知和推理能力，我们提出了一个新的 CFMM（Counterfactual MultiModal）基准测试，以系统评估 MLLMs 的反事实推理能力，发现现有 MLLMs 往往更加倾向于相信所见而忽视问题中提到的反事实前提，因此导致了不准确的回答，同时也表明现有 MLLMs 在逼近人类智能方面仍有较大提升空间，我们还探索了通过在未来提升 MLLMs 在 CFMM 上的表现来发展具备先进智能的 MLLMs 的潜在途径。

Apr, 2024

MC-MKE: 一个注重模态一致性的细粒度多模态知识编辑基准

多模态大型语言模型 (MLLMs) 存在非事实或过时知识问题，通过将多模态知识分解为其视觉和文本组成部分，我们提出了 MC-MKE，一个注重模态一致性的细粒度多模态知识编辑基准，评估了三种多模态知识编辑方法在 MC-MKE 上的性能，并揭示了它们在模态一致性方面的局限性。我们的工作强调了多模态知识编辑所面临的挑战，并激励进一步的研究以开发有效的技术来解决这个任务。

Jun, 2024

VL-ICL Bench: 基于多模态上下文学习的基准测试中的细节之魔鬼

该研究介绍了一个全面的多模态上下文学习基准测试 VL-ICL Bench，评估了先进的视觉大语言模型在这个基准测试套件上的能力，揭示了它们的各种优势和弱点，并表明即使是最先进的模型，如 GPT-4，也会在这些任务中面临挑战。

Mar, 2024

MVBench：全面多模式视频理解基准测试

通过引入全面的多模式视频理解基准 (MVBench)，该研究提出了一种新的静态到动态方法，将静态任务转化为动态任务，评估多模式大型语言模型 (MLLMs) 的时间理解能力，并且开发了一种强大的视频 MLLM 基准模型 VideoChat2，检验结果显示 VideoChat2 在 MVBench 上的性能超过其他领先模型 15% 以上。

Nov, 2023

MMBench-Video：一种用于整体视频理解的长形多镜头基准

通过引入 MMBench-Video 来评估大规模视觉语言模型在视频理解方面的表现，该评估基准充分考虑视频内容，并充分评估模型的时间理解能力，从而为改进大规模视觉语言模型的评估提供了有价值的资源，促进了视频理解领域的进展。

Jun, 2024

训练事实验证器的方法：多模态开放模型的知识传递

通过知识传递策略，可以提高模型性能，从而有效验证消息的真实性，扩大网络警察机制的规模，减轻虚假和有害内容的传播。

Jun, 2024