不是所有的假新闻都是文字：一个关于误导性视频标题的数据集和分析

EMNLPOct, 2023

不是所有的假新闻都是文字：一个关于误导性视频标题的数据集和分析

Not all Fake News is Written: A Dataset and Analysis of Misleading Video Headlines

Yoo Yeon Sung, Jordan Boyd-Graber, Naeemul Hassan

TL;DR通过收集和注释 Multimodal Video Misleading Headline（VMH）数据集，我们分析了侦测误导性标题的多模态基线，同时注重了注释者对视频误导性的看法和背景与视频内容之间的相互作用。

Abstract

polarization and the marketplace for impressions have conspired to make navigating information online difficult for users, and while there has been a significant effort to detect false or misleading text,

polarization marketplace for impressions multimodal datasets misleading headlines annotation process

发现论文，激发创造

Factify 2: 一份多模态假新闻和讽刺新闻数据集

本研究提供 FACTIFY2 这一多模态事实核查数据集以及相关算法，并使用新数据源和添加讽刺文章来改进 FACTIFY1，FACTIFY2 具有 50,000 个新实例数据，包含支持、无证据和驳斥三个分类以及文本和视觉数据的三个子分类，使用基于 BERT 和 Vision Transformer 的基础模型的测试集 F1 分数为 65％。

Apr, 2023

检测跨模态不一致性以防御神经假新闻

本文介绍了一种有效的防御机制，其可以用于防御包括图像和标题在内的机器生成的虚假新闻，并通过创建一个包含 4 种不同类型的生成文章的 NeuralNews 数据集以及进行一系列基于此数据集的人类用户研究实验来确定敌方可能会利用的潜在弱点。此外，本文提供了一种相对有效的方法，基于检测视觉语义不一致性的方法，这将成为有效的第一防线和未来防御机器生成的虚假信息的有用参考资料。

Sep, 2020

社交媒体视频帖子中的虚假信息检测

本研究提出了两种新方法：对比学习和掩码语言建模，以检测短视频社交媒体帖子中的语义不一致性，证明这些方法优于当前的最先进方法，可用于检测社交媒体帖子中的错误信息。

Feb, 2022

r/Fakeddit: 细粒度虚假新闻检测的新多模态基准数据集

使用机器学习分类模型是打击假新闻传播的有效方法，但缺乏有效的全面数据集一直是假新闻研究和检测模型发展的问题。Fakeddit 是一个新颖的多模态数据集，包括一百万个多个类别的假新闻样本，并通过远程监督进行两种，三种和六种分类。我们构建了混合文本 + 图像模型并进行了多个变体的分类实验，证明了 Fakeddits 的多模式和精细分类的重要性。

Nov, 2019

Factify 2: 多模态假新闻检测研究结果

社交媒体的迅速增长导致虚假新闻泛滥，因此自动检测和验证虚假信息的研究变得尤为重要。本研究介绍了 Factify 2 任务的结果，提供了一个多模态事实验证和讽刺新闻数据集，并使用基于多模态关系将社交媒体索求与支持文件进行比较，最终得到 81.82% 的最高 F1 分数。

Jul, 2023

FACTIFY3M: 基于 5W 问答的多模态事实验证基准

为解决社交媒体上大规模的多模态虚假信息检测问题，我们介绍了一个名为 FACTIFY 3M 的数据集，包含了 3 百万个样本，其中包括文本声明、图像、像素级图像热力图和 5W 问答对等元素，并且提供了可解释性的概念。

May, 2023

多模态虚假信息检测调查

本研究为现有多模式虚假信息检测技术提供了一份综述，重点关注了文本、图像、语音、视频、社交媒体网络结构和时间信息等多种组合形式，并探讨了未来研究的方向和挑战，同时提出需要在相同框架内考虑虚假信息的真实性和危害程度。

Mar, 2021

超越面部的视频处理：一份进行人机分析的数据集

为了区分 “真实” 和 “篡改” 内容，在现代内容编辑工具成熟和基于人工智能的算法合成媒体不断发展的背景下，我们提出了 VideoSham 数据集，它包含 826 个视频（413 个真实和 413 个篡改）。该数据集具有更多元化、富于语境和以人为中心的高分辨率视频，使用 6 种不同的空间和时间攻击进行操作，我们分析发现，现有的最先进的检测算法只适用于少数几种攻击，并且不适用于 VideoSham。我们在 Amazon Mechanical Turk 上进行了用户研究，并深入分析了人类和 SOTA 算法的性能优劣，以确定需要更好的人工智能算法来填补差距。

Jul, 2022

多模态新闻理解与专业标注视频

通过对 ReutersViLNews 数据集进行大规模分析，我们发现新闻导向的视频对当前视频语言理解算法构成了重大挑战，并提供了未来解决 ReutersViLNews 数据集的方法。

Jan, 2024

社交媒体新闻帖子中的多模态语义不一致检测

本研究提出了一种用于识别社交媒体新闻帖子中视频外观和文本标题之间语义不一致的分类架构，通过使用基于文本分析、自动音频转录、语义视频分析、对象检测、命名实体一致性和面部验证的多模态融合框架来发现社交媒体帖子中的视频和标题之间的不匹配。通过训练和测试基于 4,000 个 Facebook 新闻帖子的新视频数据集，我们的多模态方法在随机标题和外观不匹配的情况下实现了 60.5％的分类准确性，而单模分别准确率不到 50％。进一步的消融研究证实了跨模态融合对于正确识别语义不一致性的必要性。

May, 2021