May, 2022

端到端多模态事实核查与解释生成:一组具有挑战性的数据集和模型

TL;DR我们提出了一种端到端的多模态事实核查和解释生成方法,利用包括文章、图片、视频以及推特在内的大量网络资源来评估索赔的真实性,并生成一个有理化陈述来解释推理和裁定过程。我们构建了 Mocheg,这是一个大规模数据集,包括 21,184 个索赔和 58,523 条文本和图像形式的证据。我们在多模态证据检索、索赔验证和解释生成三个子任务上进行了几种最先进的神经网络结构的实验,以建立基准性能,并展示端到端多模态事实核查的最新性能仍然远远不够令人满意。据我们所知,我们是第一个建立端到端多模态事实核查和证明基准数据集和解决方案的研究团队。