MMFakeBench: 用于 LVLM 的混合源多模态虚假信息检测基准

Jun, 2024

MMFakeBench: 用于 LVLM 的混合源多模态虚假信息检测基准

MMFakeBench: A Mixed-Source Multimodal Misinformation Detection Benchmark for LVLMs

Xuannan Liu, Zekun Li, Peipei Li, Shuhan Xia, Xing Cui...

TL;DR当前的多模态误信息检测（MMD）方法通常假设每个样本只有一个来源和一种伪造类型，这对于存在多个伪造来源的现实场景是不足够的。缺乏混合来源误信息的基准已经妨碍了这个领域的进展。为了解决这个问题，我们引入了 MMFakeBench，这是第一个全面的混合来源 MMD 基准。MMFakeBench 包括文本真实性失真、视觉真实性失真和跨模态一致性失真这三个关键来源，以及 12 个不同类别的误信息伪造类型。我们在零 - shot 设置下对 MMFakeBench 进行了 6 种流行的检测方法和 15 个大规模视觉语言模型（LVLMs）的广泛评估。结果表明，当前的方法在这个具有挑战性和现实的混合来源 MMD 环境下表现不佳。此外，我们提出了一种创新的统一框架，将 LVLM 智能体的逻辑、行动和工具使用能力相结合，显著提高了准确性和概括能力。我们相信这项研究将推动未来对更加真实的混合来源多模态误信息的研究，并提供对误信息检测方法的公正评估。

Abstract

Current multimodal misinformation detection (MMD) methods often assume a single source and type of forgery for each sample, which is insufficient for real-world scenarios where multiple forgery sources coexist. The lack of a →

multimodal misinformation detection mixed-source mmd benchmark lvlms forgery types

发现论文，激发创造

FakeBench：用大型多模型揭示伪造图片的致命弱点

利用人工智能技术生成的虚假图像与真实图像已经变得难以区分，对于虚假图像检测模型带来了新的挑战。为此，我们提出了 FakeBench，这是首个透明的虚假图像检测基准，包括带有人类语言描述的伪造迹象的虚假图像。我们构建了包括 6k 个多样化来源的虚假和真实图像的 FakeClass 数据集，用于评估图像真实性的检测能力。此外，我们还构建了包含 15k 个描述虚假图像伪造迹象的关键线索的 FakeClue 数据集，以及用于衡量大型多模态模型在细粒度真实性相关方面的开放性问题回答能力的 FakeQA 数据集。实验结果表明，当前的大型多模态模型在图像虚假检测方面具有中等的识别能力、初步的解释和推理能力以及可接受的开放性问题回答能力。FakeBench 将很快公开。

Apr, 2024

MFC-Bench: 基于大型视觉 - 语言模型的多模态事实核查基准测试

通过评估 MFC-Bench 对 12 个各异而代表性的大型视觉 - 语言模型进行了基准测试，发现当前模型在多模态事实核查方面仍存在不足，并对各种形式的操纵内容表现出麻木，希望通过 MFC-Bench 能够引起对未来可能由大型视觉 - 语言模型辅助的可信人工智能的关注。

Jun, 2024

对大型多模态模型进行常见冲突的基准测试

填补大型多模型（LMMs）评估中的不足，通过研究其输出在常见破坏情况下的自一致性，调查文本、图像和语音之间的跨模态交互，创建了一个综合性基准 MMCbench，评估了 100 多个受欢迎的 LMMs（共 150 个模型检查点），此全面评估对于实际部署至关重要，并有助于更好地了解顶尖 LMMs 的可靠性。

Jan, 2024

FakeNewsGPT4：通过知识增强的 LVLMs 推进多模态假新闻检测

本研究通过将大规模视觉 - 语言模型（LVLMs）与特定领域内的造假专有知识相结合，提出了 FakeNewsGPT4，用于检测多模态假新闻并获得更优跨领域性能。实验证明 FakeNewsGPT4 在公共基准测试中表现出优越的性能。

Mar, 2024

MMT-Bench：一个综合评估大型视觉语言模型向多任务人工通用智能发展的多模态基准

该研究介绍了 MMT-Bench，这是一个综合性评估基准，旨在评估大规模视觉 - 语言模型（LVLM）在多种跨领域的多模态任务上的能力，并促进下一代通用多模态智能基础模型的发展。

Apr, 2024

LEMMA: 用外部知识增强的 LVLM 增强型多模态误信息检测

利用 Large Vision Language Model（LVLM）及外部知识增强的 LEMMA 方法，大幅提升了多模态错误信息检测的准确性。

Feb, 2024

欺骗性提示对多模态语言模型的迷惑程度实证分析

通过 Quantum-Bench，我们比较了多种先进模型在对抗伪信息的能力上的表现，并提出了通过增加伪信息以增强模型韧性的建议。

Feb, 2024

支持现实世界事实核查的多模态大型语言模型

对多模态大型语言模型在事实检查方面的能力和局限性进行了系统评估，发现 GPT-4V 在识别恶意和误导性多模态论断方面表现出优越性能，具备解释不合理方面和潜在动机的能力，同时已有的开源模型存在强烈的偏见，并对提示非常敏感。这项研究为对抗虚假多模态信息和构建安全可靠的多模态模型提供了启示，据我们所知，这是第一次对多模态大型语言模型进行真实世界事实检查的评估。

Mar, 2024

r/Fakeddit: 细粒度虚假新闻检测的新多模态基准数据集

使用机器学习分类模型是打击假新闻传播的有效方法，但缺乏有效的全面数据集一直是假新闻研究和检测模型发展的问题。Fakeddit 是一个新颖的多模态数据集，包括一百万个多个类别的假新闻样本，并通过远程监督进行两种，三种和六种分类。我们构建了混合文本 + 图像模型并进行了多个变体的分类实验，证明了 Fakeddits 的多模式和精细分类的重要性。

Nov, 2019

RMDM: 一个用于越南证据验证的多标签虚假新闻数据集

本研究提出了一个新的、具有挑战性的多标签越南数据集 (RMDM)，用于评估大型语言模型 (LLMs) 在验证与法律背景相关的电子信息方面的表现，特别关注作为电子证据潜在输入的假新闻。RMDM 数据集包含四个标签：real、mis、dis 和 mal，分别代表真实信息、错误信息、误导信息和恶意信息。通过包含这些不同的标签，RMDM 捕捉了不同假新闻类别的复杂性，并为处理可能成为电子证据一部分的各种信息的不同语言模型的能力提供了见解。该数据集共有 1556 个样本，每个标签有 389 个样本。使用基于 GPT 和基于 BERT 的模型对数据集进行的初步测试显示，不同标签之间模型的性能存在差异，这表明该数据集有效地挑战了各种语言模型验证这种信息真实性的能力。我们的研究结果表明，验证与法律背景相关的电子信息，包括假新闻，对于语言模型仍然是一个困难的问题，需要进一步引起研究界的关注，以推进更可靠的人工智能模型，用于潜在的法律应用。

Sep, 2023