MiRAGeNews：多模态真实AI生成新闻检测

Oct, 2024

MiRAGeNews：多模态真实AI生成新闻检测

MiRAGeNews: Multimodal Realistic AI-Generated News Detection

Runsheng Huang, Liam Dugan, Yue Yang, Chris Callison-Burch

TL;DR本研究针对随着AI生成技术的发展而日益严重的假新闻问题，提出了MiRAGeNews数据集，包含来自先进生成器的12,500对高质量真实和AI生成的图像-标题组合。研究表明，该数据集对人类和现有多模态模型提出了重大挑战，并且通过训练的多模态检测器MiRAGe在检测效果上优于现有基准，具有更好的应用潜力。

Abstract

The proliferation of inflammatory or misleading "fake" news content has become increasingly common in recent years. Simultaneously, it has become easier than ever to use AI tools to generate photorealistic images depicting any scene imaginable. Combining these two -- AI-generated Fake News

发现论文，激发创造

检测跨模态不一致性以防御神经假新闻

本文介绍了一种有效的防御机制，其可以用于防御包括图像和标题在内的机器生成的虚假新闻，并通过创建一个包含4种不同类型的生成文章的NeuralNews数据集以及进行一系列基于此数据集的人类用户研究实验来确定敌方可能会利用的潜在弱点。此外，本文提供了一种相对有效的方法，基于检测视觉语义不一致性的方法，这将成为有效的第一防线和未来防御机器生成的虚假信息的有用参考资料。

Sep, 2020

伪造假新闻用于真假新闻检测：具有宣传性训练数据生成

提出一种利用自我批评序列训练和宣传技巧生成更接近人类写作的文章，并创建了一份新的虚假新闻检测训练数据集PropaNews，结果表明，使用PropaNews训练的检测器比使用现有方法生成的数据训练的检测器在检测人类撰写的虚假信息方面的准确性提高了7.3％至12.0％。

Mar, 2022

虚假新闻如何使用缩略图？基于CLIP的非代表性新闻图像多模态检测

本研究探讨虚假新闻如何使用新闻文章的缩略图，特别关注新闻文章的缩略图是否正确地代表了新闻内容。我们提出使用预训练的CLIP表示来捕捉多模态关系中的语义不一致度，并通过对源头的分析发现，相较于一般新闻，虚假新闻更倾向于使用与主题不相符的图片。我们还尝试检测图文不一致的新闻文章，并通过评估实验表明，基于CLIP的方法可以成功识别出缩略图与新闻文本语义不相关的新闻文章。该研究为解决在线虚假新闻和误导信息提供了新视角。

Apr, 2022

提高多模态假新闻检测的泛化能力

本文提出了三种基于多模态transformer的假新闻检测模型，并通过深入分析操纵数据的方法来探索这些模型在社交媒体上实际使用情况下的性能。研究发现，这些系统在面临被操纵的数据时会出现显著性能下降。为了减少偏差并改善模型的推广能力，本文建议使用数据增强技术对社交媒体上的假新闻检测进行更有意义的实验。所提出的数据增强技术使得模型的泛化能力得到了提高，并获得了最先进的效果。

May, 2023

新闻中检测上下文不相关的图像-标题对的一种违反常识的方法

利用生成图像模型检测新闻中图像与标题对的脱离语境使用，为廉价伪造检测领域的进一步研究提供新方法和数据集，通过定性和定量分析评估图像生成模型及图像相似度计算方法的性能。

Aug, 2023

不良演员，良好顾问：大型语言模型在假新闻检测中的作用探究

基于大型语言模型的虚假新闻检测研究发现，大型语言模型虽然能提供多元的合理解释，却无法像基于小语言模型的训练过程那样适当选择和结合解释来得出结论。因此，当前的大型语言模型不能替代小型语言模型在虚假新闻检测中的作用，但可以作为小型语言模型的顾问，提供多元的启示性解释。为了实现这一点，作者设计了自适应启示指导网络（ARG）用于虚假新闻检测，在这个网络中，小型语言模型从大型语言模型的解释中选择性地获取新闻分析的见解。另外，作者还提出了一个消除解释的版本ARG-D，用于成本敏感的情境，无需查询大型语言模型。实验证明，ARG和ARG-D在两个真实数据集上的表现优于基于小型语言模型、大型语言模型以及小型和大型语言模型组合的三种基准方法。

Sep, 2023

适应大语言模型时代的假新闻检测

本文研究了大型语言模型时代中的假新闻检测问题，发现仅训练于人工编写文章的检测器在检测机器生成的假新闻方面表现良好，但反之不成立。此外，由于检测器对机器生成的文本存在偏见，需要在训练集中使用比测试集中较低比例的机器生成新闻。基于我们的发现，我们提供了一个实用的策略来开发健壮的假新闻检测器。

Nov, 2023

FakeNewsGPT4：通过知识增强的LVLMs推进多模态假新闻检测

本研究通过将大规模视觉-语言模型（LVLMs）与特定领域内的造假专有知识相结合，提出了FakeNewsGPT4，用于检测多模态假新闻并获得更优跨领域性能。实验证明FakeNewsGPT4在公共基准测试中表现出优越的性能。

Mar, 2024

FakeBench：用大型多模型揭示伪造图片的致命弱点

利用人工智能技术生成的虚假图像与真实图像已经变得难以区分，对于虚假图像检测模型带来了新的挑战。为此，我们提出了FakeBench，这是首个透明的虚假图像检测基准，包括带有人类语言描述的伪造迹象的虚假图像。我们构建了包括6k个多样化来源的虚假和真实图像的FakeClass数据集，用于评估图像真实性的检测能力。此外，我们还构建了包含15k个描述虚假图像伪造迹象的关键线索的FakeClue数据集，以及用于衡量大型多模态模型在细粒度真实性相关方面的开放性问题回答能力的FakeQA数据集。实验结果表明，当前的大型多模态模型在图像虚假检测方面具有中等的识别能力、初步的解释和推理能力以及可接受的开放性问题回答能力。FakeBench将很快公开。

Apr, 2024

CoVLM：利用视觉-语言模型的共识进行半监督多模态假新闻检测

本研究针对现实世界中难以处理的上下文错误信息检测问题，即真实图像与不正确标题的搭配所生成的假新闻。我们提出了一种半监督协议，使用有限的标记图像-文本对和大量未标记对来生成强大的伪标签，研究表明该方法在不平衡数据集上具有显著效果，展示了我们框架的有效性。

Oct, 2024