检测和定位多模态媒体篡改
我们构建了一个简单而新颖的基于 Transformer 的多模态操纵检测和定位任务框架,通过引入视觉 / 语言预训练的编码器和双支路交叉注意力来同时探索模态特定的特征,并提出了解耦的细粒度分类器和自适应地聚合全局上下文线索的隐式操纵查询,从而提高了揭示伪造细节的能力,实验证明我们提出的模型在 $ m DGM^4$ 数据集上表现优于现有方法。
Sep, 2023
假新闻检测和操纵推理是本论文的研究重点,提出了一种多媒体的新研究主题,通过构建一个人为中心且与事实相关的虚假新闻基准(HFFN),引入了一个名为 M-DRUM 的多模态新闻检测和推理语言模型,使用交互注意机制从多模态输入中提取细粒度融合特征进行推理,实验证明该模型在假新闻检测方面优于现有方法和先进的大规模视觉 - 语言模型。
Jul, 2024
通过引入离散小波变换在多个频率子带中捕捉丰富的人脸伪造特征,并结合图像和频率特征的互补视角,提出了一种统一的频率辅助转换器框架(UFAFormer)来解决多模态媒体篡改问题。实验证明,与之前的方法相比,我们的框架在 DGM^4 数据集上表现出优越性能,并在该领域树立了新的基准。
Sep, 2023
本研究通过将大规模视觉 - 语言模型(LVLMs)与特定领域内的造假专有知识相结合,提出了 FakeNewsGPT4,用于检测多模态假新闻并获得更优跨领域性能。实验证明 FakeNewsGPT4 在公共基准测试中表现出优越的性能。
Mar, 2024
本文提出了三种基于多模态 transformer 的假新闻检测模型,并通过深入分析操纵数据的方法来探索这些模型在社交媒体上实际使用情况下的性能。研究发现,这些系统在面临被操纵的数据时会出现显著性能下降。为了减少偏差并改善模型的推广能力,本文建议使用数据增强技术对社交媒体上的假新闻检测进行更有意义的实验。所提出的数据增强技术使得模型的泛化能力得到了提高,并获得了最先进的效果。
May, 2023
通过定性和定量实验,我们调查了多模式大型语言模型在 DeepFake 检测中的能力,并展示了它们通过仔细的实验设计和及时的工程设计可以揭示 AI 生成的图像,而这一过程并不需要编程。我们讨论了多模式大型语言模型在这些任务中的局限性,并提出可能的改进。
Mar, 2024
社交媒体误导信息对个人和社会有害,并且多模态内容(即文本和图像)使其更具 “可信度”,高于仅有文本的新闻报道。我们提出一种新颖的鲁棒领域与多模态方法(RDCM),用于多模态误导信息的检测,通过领域内对齐模块降低领域漂移,并通过跨模态对齐模块弥合两种模态之间的语义差距。在两个公开的多模态误导信息检测数据集(Pheme 和 Twitter 数据集)上的评估结果证明了该模型的优越性。
Nov, 2023
本研究关注于通过图像 —— 标题对传播虚假信息的交叉多模态误传(CMM),并提出一种名为 FIGMENTS 的评估基准集合,以消除一模式偏见,并开发了一种名为 CHASMA 的方法来生成可靠的合成数据,最终得到了在二元和多类设置中提高了性能的结果。
Apr, 2023