不是所有的假新闻都是文字:一个关于误导性视频标题的数据集和分析
本研究提供 FACTIFY2 这一多模态事实核查数据集以及相关算法,并使用新数据源和添加讽刺文章来改进 FACTIFY1,FACTIFY2 具有 50,000 个新实例数据,包含支持、无证据和驳斥三个分类以及文本和视觉数据的三个子分类,使用基于 BERT 和 Vision Transformer 的基础模型的测试集 F1 分数为 65%。
Apr, 2023
本文介绍了一种有效的防御机制,其可以用于防御包括图像和标题在内的机器生成的虚假新闻,并通过创建一个包含 4 种不同类型的生成文章的 NeuralNews 数据集以及进行一系列基于此数据集的人类用户研究实验来确定敌方可能会利用的潜在弱点。此外,本文提供了一种相对有效的方法,基于检测视觉语义不一致性的方法,这将成为有效的第一防线和未来防御机器生成的虚假信息的有用参考资料。
Sep, 2020
本研究提出了两种新方法:对比学习和掩码语言建模,以检测短视频社交媒体帖子中的语义不一致性,证明这些方法优于当前的最先进方法,可用于检测社交媒体帖子中的错误信息。
Feb, 2022
使用机器学习分类模型是打击假新闻传播的有效方法,但缺乏有效的全面数据集一直是假新闻研究和检测模型发展的问题。Fakeddit 是一个新颖的多模态数据集,包括一百万个多个类别的假新闻样本,并通过远程监督进行两种,三种和六种分类。我们构建了混合文本 + 图像模型并进行了多个变体的分类实验,证明了 Fakeddits 的多模式和精细分类的重要性。
Nov, 2019
社交媒体的迅速增长导致虚假新闻泛滥,因此自动检测和验证虚假信息的研究变得尤为重要。本研究介绍了 Factify 2 任务的结果,提供了一个多模态事实验证和讽刺新闻数据集,并使用基于多模态关系将社交媒体索求与支持文件进行比较,最终得到 81.82% 的最高 F1 分数。
Jul, 2023
为解决社交媒体上大规模的多模态虚假信息检测问题,我们介绍了一个名为 FACTIFY 3M 的数据集,包含了 3 百万个样本,其中包括文本声明、图像、像素级图像热力图和 5W 问答对等元素,并且提供了可解释性的概念。
May, 2023
本研究为现有多模式虚假信息检测技术提供了一份综述,重点关注了文本、图像、语音、视频、社交媒体网络结构和时间信息等多种组合形式,并探讨了未来研究的方向和挑战,同时提出需要在相同框架内考虑虚假信息的真实性和危害程度。
Mar, 2021
为了区分 “真实” 和 “篡改” 内容,在现代内容编辑工具成熟和基于人工智能的算法合成媒体不断发展的背景下,我们提出了 VideoSham 数据集,它包含 826 个视频(413 个真实和 413 个篡改)。该数据集具有更多元化、富于语境和以人为中心的高分辨率视频,使用 6 种不同的空间和时间攻击进行操作,我们分析发现,现有的最先进的检测算法只适用于少数几种攻击,并且不适用于 VideoSham。我们在 Amazon Mechanical Turk 上进行了用户研究,并深入分析了人类和 SOTA 算法的性能优劣,以确定需要更好的人工智能算法来填补差距。
Jul, 2022
通过对 ReutersViLNews 数据集进行大规模分析,我们发现新闻导向的视频对当前视频语言理解算法构成了重大挑战,并提供了未来解决 ReutersViLNews 数据集的方法。
Jan, 2024
本研究提出了一种用于识别社交媒体新闻帖子中视频外观和文本标题之间语义不一致的分类架构,通过使用基于文本分析、自动音频转录、语义视频分析、对象检测、命名实体一致性和面部验证的多模态融合框架来发现社交媒体帖子中的视频和标题之间的不匹配。通过训练和测试基于 4,000 个 Facebook 新闻帖子的新视频数据集,我们的多模态方法在随机标题和外观不匹配的情况下实现了 60.5%的分类准确性,而单模分别准确率不到 50%。进一步的消融研究证实了跨模态融合对于正确识别语义不一致性的必要性。
May, 2021