MuMiN: 一个大规模多语言多模态事实核查的虚假信息社交网络数据集

Feb, 2022

MuMiN: 一个大规模多语言多模态事实核查的虚假信息社交网络数据集

MuMiN: A Large-Scale Multilingual Multimodal Fact-Checked Misinformation Social Network Dataset

Dan Saattrup Nielsen, Ryan McConville

TL;DR通过构建一个数据收集和链接系统（MuMiN-trawl），我们开发了一个公共的虚假信息图数据集（MuMiN），它包含 21 百万条推文，13 千个经过事实检查的声明和 41 种不同语言，为自动虚假信息检测研究提供了大规模、多样化和高质量的数据集。我们公开了基线结果来证明这些是具有挑战性的任务。

Abstract

misinformation is becoming increasingly prevalent on social media and in news articles. It has become so widespread that we require algorithmic assistance utilising →

misinformation machine learning data collection social media veracity

发现论文，激发创造

DisinfoMeme：一种用于检测有意传播虚假信息的多模态数据集

本研究旨在帮助检测社交媒体上具有传播不实信息优势的迷因，研究人员构建了名为 DisinfoMeme 的数据集，覆盖了 COVID-19 大流行、黑人的命也是命运动以及素食主义 / 素食主义等三个流行话题，探讨了它们的特点，并在数据集上测试了多种模型，结果表明目前模型的提升空间仍然很大。

May, 2022

MM-Claims: 社交媒体上的多模态主张检测数据集

本文介绍了一个新的跨语言、跨国的深度学习模型，用于检测社交媒体平台上的虚假信息，包括图像和文本特征分析，详述了该模型使用的 MM-Claims 数据集，通过多模态模型的训练得出了一系列的结论和推荐。

May, 2022

MM-COVID: 用于打击 COVID-19 虚假信息的多语言和多模态数据存储库

为了更好地应对 COVID-19 假新闻，我们提出了一个新的假新闻数据集 MM-COVID（多语言和多维 COVID-19 假新闻数据存储库），该数据集提供了多语言假新闻和相关社会背景。我们从不同角度对 MM-COVID 进行了详细的探索性分析，展示了在 COVID-19 假新闻研究的多语言和社交媒体的几个潜在应用方面的实用性。

Nov, 2020

Factify 2: 一份多模态假新闻和讽刺新闻数据集

本研究提供 FACTIFY2 这一多模态事实核查数据集以及相关算法，并使用新数据源和添加讽刺文章来改进 FACTIFY1，FACTIFY2 具有 50,000 个新实例数据，包含支持、无证据和驳斥三个分类以及文本和视觉数据的三个子分类，使用基于 BERT 和 Vision Transformer 的基础模型的测试集 F1 分数为 65％。

Apr, 2023

谎言的时代不好过：俄乌战争、COVID-19 和难民信息识别

本研究构建了一个新的数据集 MiDe-22，包括 5,284 条英文推文和 5,064 条土耳其推文，涵盖了包括俄罗斯 - 乌克兰战争、COVID-19 疫情和难民等几个最近事件，并提供了推文的用户参与度。研究提供了详细的数据分析和实验结果，并对误信息检测进行了基准评估。

Oct, 2022

Factify 2: 多模态假新闻检测研究结果

社交媒体的迅速增长导致虚假新闻泛滥，因此自动检测和验证虚假信息的研究变得尤为重要。本研究介绍了 Factify 2 任务的结果，提供了一个多模态事实验证和讽刺新闻数据集，并使用基于多模态关系将社交媒体索求与支持文件进行比较，最终得到 81.82% 的最高 F1 分数。

Jul, 2023

CovidMis20: 使用深度学习模型在 Twitter 推文上检测 COVID-19 的误信息

本研究介绍 CovidMis20 数据集，该数据集收集了从 2020 年 2 月到 7 月期间 1,375,592 条推文，用于利用基于深度学习的 Bi-LSTM 和集成 CNN + Bi-GRU 的方法进行假新闻检测，后者的测试精度优于前者。

Sep, 2022

FACTIFY3M: 基于 5W 问答的多模态事实验证基准

为解决社交媒体上大规模的多模态虚假信息检测问题，我们介绍了一个名为 FACTIFY 3M 的数据集，包含了 3 百万个样本，其中包括文本声明、图像、像素级图像热力图和 5W 问答对等元素，并且提供了可解释性的概念。

May, 2023

利用大型语言模型纠正社交媒体的错误信息

通过提供准确可信的解释和参考资料，以及纠正多模态信息，MUSE 扩展了大型语言模型的能力，表明了使用 LLMs 有效和高效地应对现实世界的错误信息的潜力。

Mar, 2024

端到端多模态事实核查与解释生成：一组具有挑战性的数据集和模型

我们提出了一种端到端的多模态事实核查和解释生成方法，利用包括文章、图片、视频以及推特在内的大量网络资源来评估索赔的真实性，并生成一个有理化陈述来解释推理和裁定过程。我们构建了 Mocheg，这是一个大规模数据集，包括 21,184 个索赔和 58,523 条文本和图像形式的证据。我们在多模态证据检索、索赔验证和解释生成三个子任务上进行了几种最先进的神经网络结构的实验，以建立基准性能，并展示端到端多模态事实核查的最新性能仍然远远不够令人满意。据我们所知，我们是第一个建立端到端多模态事实核查和证明基准数据集和解决方案的研究团队。

May, 2022