RMDM: 一个用于越南证据验证的多标签虚假新闻数据集

Sep, 2023

RMDM: 一个用于越南证据验证的多标签虚假新闻数据集

RMDM: A Multilabel Fakenews Dataset for Vietnamese Evidence Verification

Hai-Long Nguyen, Thi-Kieu-Trang Pham, Thai-Son Le, Tan-Minh Nguyen, Thi-Hai-Yen Vuong...

TL;DR本研究提出了一个新的、具有挑战性的多标签越南数据集 (RMDM)，用于评估大型语言模型 (LLMs) 在验证与法律背景相关的电子信息方面的表现，特别关注作为电子证据潜在输入的假新闻。RMDM 数据集包含四个标签：real、mis、dis 和 mal，分别代表真实信息、错误信息、误导信息和恶意信息。通过包含这些不同的标签，RMDM 捕捉了不同假新闻类别的复杂性，并为处理可能成为电子证据一部分的各种信息的不同语言模型的能力提供了见解。该数据集共有 1556 个样本，每个标签有 389 个样本。使用基于 GPT 和基于 BERT 的模型对数据集进行的初步测试显示，不同标签之间模型的性能存在差异，这表明该数据集有效地挑战了各种语言模型验证这种信息真实性的能力。我们的研究结果表明，验证与法律背景相关的电子信息，包括假新闻，对于语言模型仍然是一个困难的问题，需要进一步引起研究界的关注，以推进更可靠的人工智能模型，用于潜在的法律应用。

Abstract

In this study, we present a novel and challenging multilabel Vietnamese dataset (RMDM) designed to assess the performance of large language models (LLMs), in verifying electronic information related to legal contexts, focusing on fake news as potential input for →

multilabel vietnamese dataset large language models (llms)fake news electronic evidence language model performance

发现论文，激发创造

r/Fakeddit: 细粒度虚假新闻检测的新多模态基准数据集

使用机器学习分类模型是打击假新闻传播的有效方法，但缺乏有效的全面数据集一直是假新闻研究和检测模型发展的问题。Fakeddit 是一个新颖的多模态数据集，包括一百万个多个类别的假新闻样本，并通过远程监督进行两种，三种和六种分类。我们构建了混合文本 + 图像模型并进行了多个变体的分类实验，证明了 Fakeddits 的多模式和精细分类的重要性。

Nov, 2019

MMFakeBench: 用于 LVLM 的混合源多模态虚假信息检测基准

当前的多模态误信息检测（MMD）方法通常假设每个样本只有一个来源和一种伪造类型，这对于存在多个伪造来源的现实场景是不足够的。缺乏混合来源误信息的基准已经妨碍了这个领域的进展。为了解决这个问题，我们引入了 MMFakeBench，这是第一个全面的混合来源 MMD 基准。MMFakeBench 包括文本真实性失真、视觉真实性失真和跨模态一致性失真这三个关键来源，以及 12 个不同类别的误信息伪造类型。我们在零 - shot 设置下对 MMFakeBench 进行了 6 种流行的检测方法和 15 个大规模视觉语言模型（LVLMs）的广泛评估。结果表明，当前的方法在这个具有挑战性和现实的混合来源 MMD 环境下表现不佳。此外，我们提出了一种创新的统一框架，将 LVLM 智能体的逻辑、行动和工具使用能力相结合，显著提高了准确性和概括能力。我们相信这项研究将推动未来对更加真实的混合来源多模态误信息的研究，并提供对误信息检测方法的公正评估。

Jun, 2024

通过多模态特征对鲁棒领域虚假信息检测

社交媒体误导信息对个人和社会有害，并且多模态内容（即文本和图像）使其更具 “可信度”，高于仅有文本的新闻报道。我们提出一种新颖的鲁棒领域与多模态方法（RDCM），用于多模态误导信息的检测，通过领域内对齐模块降低领域漂移，并通过跨模态对齐模块弥合两种模态之间的语义差距。在两个公开的多模态误导信息检测数据集（Pheme 和 Twitter 数据集）上的评估结果证明了该模型的优越性。

Nov, 2023

MM-COVID: 用于打击 COVID-19 虚假信息的多语言和多模态数据存储库

为了更好地应对 COVID-19 假新闻，我们提出了一个新的假新闻数据集 MM-COVID（多语言和多维 COVID-19 假新闻数据存储库），该数据集提供了多语言假新闻和相关社会背景。我们从不同角度对 MM-COVID 进行了详细的探索性分析，展示了在 COVID-19 假新闻研究的多语言和社交媒体的几个潜在应用方面的实用性。

Nov, 2020

MuMiN: 一个大规模多语言多模态事实核查的虚假信息社交网络数据集

通过构建一个数据收集和链接系统（MuMiN-trawl），我们开发了一个公共的虚假信息图数据集（MuMiN），它包含 21 百万条推文，13 千个经过事实检查的声明和 41 种不同语言，为自动虚假信息检测研究提供了大规模、多样化和高质量的数据集。我们公开了基线结果来证明这些是具有挑战性的任务。

Feb, 2022

MM-Claims: 社交媒体上的多模态主张检测数据集

本文介绍了一个新的跨语言、跨国的深度学习模型，用于检测社交媒体平台上的虚假信息，包括图像和文本特征分析，详述了该模型使用的 MM-Claims 数据集，通过多模态模型的训练得出了一系列的结论和推荐。

May, 2022

端到端多模态事实核查与解释生成：一组具有挑战性的数据集和模型

我们提出了一种端到端的多模态事实核查和解释生成方法，利用包括文章、图片、视频以及推特在内的大量网络资源来评估索赔的真实性，并生成一个有理化陈述来解释推理和裁定过程。我们构建了 Mocheg，这是一个大规模数据集，包括 21,184 个索赔和 58,523 条文本和图像形式的证据。我们在多模态证据检索、索赔验证和解释生成三个子任务上进行了几种最先进的神经网络结构的实验，以建立基准性能，并展示端到端多模态事实核查的最新性能仍然远远不够令人满意。据我们所知，我们是第一个建立端到端多模态事实核查和证明基准数据集和解决方案的研究团队。

May, 2022

不是所有的假新闻都是文字：一个关于误导性视频标题的数据集和分析

通过收集和注释 Multimodal Video Misleading Headline（VMH）数据集，我们分析了侦测误导性标题的多模态基线，同时注重了注释者对视频误导性的看法和背景与视频内容之间的相互作用。

Oct, 2023

DisinfoMeme：一种用于检测有意传播虚假信息的多模态数据集

本研究旨在帮助检测社交媒体上具有传播不实信息优势的迷因，研究人员构建了名为 DisinfoMeme 的数据集，覆盖了 COVID-19 大流行、黑人的命也是命运动以及素食主义 / 素食主义等三个流行话题，探讨了它们的特点，并在数据集上测试了多种模型，结果表明目前模型的提升空间仍然很大。

May, 2022

朝着真实文本操纵检测的目标：新数据集和新解决方案

为了解决合成篡改无法充分复制真实世界篡改属性的问题，我们提出了一个 RTM 数据集，包含 14250 个文本图像，其中包括 5986 个手动和 5258 个自动篡改的图像，使用各种技术创建，同时还包括 3006 个未更改的文本图像，用于评估解决方案的稳定性。我们的评估表明现有的方法在 RTM 数据集上的文本伪造检测方面存在问题。我们提出了一个强大的基线解决方案，它采用一个一致性感知的聚合中心和一个门控交叉邻域注意融合模块用于高效的多模态信息融合，并在训练过程中采用一个被篡改 - 真实对比学习模块，丰富特征表示的差异。这个框架可以扩展到其他双流体系结构，对手动和总体篡改的定位性能分别提高了 7.33% 和 6.38%。我们的贡献旨在推动现实世界文本篡改检测的进展。代码和数据集将在此 https 网址上提供。

Dec, 2023