Jun, 2024

MMFakeBench: 用于 LVLM 的混合源多模态虚假信息检测基准

TL;DR当前的多模态误信息检测(MMD)方法通常假设每个样本只有一个来源和一种伪造类型,这对于存在多个伪造来源的现实场景是不足够的。缺乏混合来源误信息的基准已经妨碍了这个领域的进展。为了解决这个问题,我们引入了 MMFakeBench,这是第一个全面的混合来源 MMD 基准。MMFakeBench 包括文本真实性失真、视觉真实性失真和跨模态一致性失真这三个关键来源,以及 12 个不同类别的误信息伪造类型。我们在零 - shot 设置下对 MMFakeBench 进行了 6 种流行的检测方法和 15 个大规模视觉语言模型(LVLMs)的广泛评估。结果表明,当前的方法在这个具有挑战性和现实的混合来源 MMD 环境下表现不佳。此外,我们提出了一种创新的统一框架,将 LVLM 智能体的逻辑、行动和工具使用能力相结合,显著提高了准确性和概括能力。我们相信这项研究将推动未来对更加真实的混合来源多模态误信息的研究,并提供对误信息检测方法的公正评估。