COSMOS: 自监督学习的趣味信息检测

Jan, 2021

COSMOS: 自监督学习的趣味信息检测

COSMOS: Catching Out-of-Context Misinformation with Self-Supervised Learning

Shivangi Aneja, Chris Bregler, Matthias Nießner

TL;DR本篇研究旨在解决社交媒体上未经修饰的图像被嵌入错误语境中以误导群众的问题，通过借助图像与文本之间的信息协同作用，提出了一种利用自学习特性，通过选择性地将照片中的物体与文本描述对齐以实现快速准确判断图像和文本的整体匹配度来检测文本和图像配对情况的新方法。对于测试数据，本方法的误识别率为 15%。同时本文还提供了一个包括来自各类新闻网站、博客和社交媒体贴文的 20 万张图像和 45 万个文本描述的大型数据集。

Abstract

Despite the recent attention to deepfakes, one of the most prevalent ways to mislead audiences on social media is the use of unaltered images in a new but false context. To address these challenges and support fact-checkers, we propose a new method that automatically detects out-of-con

deepfakes misinformation fact-checking image-text alignment out-of-context detection

发现论文，激发创造

NewsCLIPpings: 自动生成多模态媒体的脱离上下文内容

提出了一个自动检测图像和文本不一致性的数据集，并在其基础上测试了几种多模态模型的性能，这对于解决在线虚假信息问题和对抗深度伪造等具有重要意义。

Apr, 2021

新闻中检测上下文不相关的图像 - 标题对的一种违反常识的方法

利用生成图像模型检测新闻中图像与标题对的脱离语境使用，为廉价伪造检测领域的进一步研究提供新方法和数据集，通过定性和定量分析评估图像生成模型及图像相似度计算方法的性能。

Aug, 2023

使用可解释的神经符号模型检测上下文不一致的多模态错误信息

本文提出了一种可解释的跨模态去上下文检测方法来辨别不匹配的内容和交叉模态的矛盾，可以帮助事实查核网站记录阐明批驳，实验表明该方法在保持准确率的同时能提供更多可解释的预测。

Apr, 2023

利用文本 - 图像对比模型的能力自动检测在线谣言

本研究旨在探究对抗学习在虚假信息识别中的应用。通过开发自学模型并在 COSMOS 数据集上进行全面实验，我们发现采用对抗学习能够大幅减少训练数据，同时在数据量不足时显示出优于传统分类器的非匹配图像 - 文本对检测性能提高约 10% 的稳定性和可比性。

Apr, 2023

使用合成多模态虚假信息进行图像文本脱离上下文检测

利用合成数据生成的新方法进行了与虚假信息检测相关的语境外检测研究，通过创建特定于语境外检测的数据集和开发高效的分类器，实验证实了合成数据生成在解决语境外检测中的数据限制方面的有效性，为未来研究和开发健壮的虚假信息检测系统提供了有价值的资源。

Jan, 2024

LLM 使用提示工程进行 cheap-fake 检测

提出了一种新的基于 COSMOS 结构和 GPT3.5 模型的学习方法，用于检测新闻报道中真实照片与不一致图注之间的语境误用，并且具有很大的潜力在廉价伪造检测性能方面取得显著的进步。

Jun, 2023

面向对象的无监督图像描述

本文旨在探索无监督图像标注任务，使用已有的图像和文本之间的重叠关系构建用于训练变形金刚模型的数据集以及研究对象信息和属性之间的关系，以此提高无监督方法的性能表现。

Dec, 2021

基于内容和多模态的开放领域图片事实核查在线资源

该研究提出了一种基于多模态证据的检查方法，通过对图像和标题进行事实检查，有效应对了当前社交网络中易传播的虚假信息。同时，引入了一种名为 'Consistency-Checking Network' 的新型架构，模拟了人类跨模态推理的过程。

Nov, 2021

带有软逻辑正则化的可解释多模态脱离语境检测

通过使用逻辑正则化方法对文本的短语级别进行预测，我们提出了一种用于检测上下文错误的逻辑正则化方法（LOGRAN），该方法在解释性和结果准确性方面表现出竞争力，提高了对虚假信息的检测和理解能力。

Jun, 2024

来自上下文无关监督的上下文感知字幕

本文针对图像生成环境下的语境问题，提出了一种关键词区分的图像描述生成方法，该方法不需要针对每个具体图像进行训练，可以在广泛的背景数据上实现对关键特征的描述和生成。根据实验和人类调查结果显示，该方法在区分性描述上优于基准生成型和发话人 - 听众型方法。

Jan, 2017