通过反事实文本引导的对比语言 - 图像预训练理解新闻缩略图代表性

Feb, 2024

通过反事实文本引导的对比语言 - 图像预训练理解新闻缩略图代表性

Understanding News Thumbnail Representativeness by Counterfactual Text-Guided Contrastive Language-Image Pretraining

Yejun Yoon, Seunghyun Yoon, Kunwoo Park

TL;DR本文研究了新闻缩略图的代表性问题，重点关注新闻图像是否能够准确地代表新闻文本的主题。我们提出了一个手动标注的新闻缩略图和文本对的数据集 NewsTT，并发现预训练的视觉和语言模型在这个任务中遇到困难。为了弥补这一差距，我们提出了 CFT-CLIP，一个反事实文本引导的对比语言 - 图像预训练框架。通过对比新闻文本与其替代实体的反事实文本，我们提出该框架可以增强跨模态匹配能力。使用 NewsTT 数据集的评估实验证明 CFT-CLIP 比预训练模型（如 CLIP 和 BLIP-2）性能更好。本文的代码和数据将在接受后向公众开放。

Abstract

This paper delves into the critical challenge of understanding the representativeness of news thumbnail images, which often serve as the first visual engagement for readers when an article is disseminated on soci

representativeness news thumbnail images clip blip-2 cft-clip

发现论文，激发创造

虚假新闻如何使用缩略图？基于 CLIP 的非代表性新闻图像多模态检测

本研究探讨虚假新闻如何使用新闻文章的缩略图，特别关注新闻文章的缩略图是否正确地代表了新闻内容。我们提出使用预训练的 CLIP 表示来捕捉多模态关系中的语义不一致度，并通过对源头的分析发现，相较于一般新闻，虚假新闻更倾向于使用与主题不相符的图片。我们还尝试检测图文不一致的新闻文章，并通过评估实验表明，基于 CLIP 的方法可以成功识别出缩略图与新闻文本语义不相关的新闻文章。该研究为解决在线虚假新闻和误导信息提供了新视角。

Apr, 2022

高效对比语言 - 图像预训练：数据质量优先于数量

我们提出了一种理论上严谨的数据选择方法，通过保留图像和标题的交叉协方差，提高 Contrastive Language-Image Pre-training 模型的泛化性能，并在 ConceptualCaptions3M 和 ConceptualCaptions12M 上进行的实验证明，我们的子集相比其他基线方法，可在 ImageNet 和其变体上实现超过 2.7 倍和 1.4 倍的准确度，同时，在 11 个下游数据集中平均准确度达到其他基线方法的 1.5 倍。

Mar, 2024

民主化对比语言 - 图像预训练：一个数据、模型和监督的 CLIP 基准

本文提出 CLIP-benchmark，对 CLIP 及其变种进行评估、分析和基准测试，并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。

Mar, 2022

增强图像检索：基于 CLIP 模型的照片搜索的全面研究

CLIP 模型是基于文本查询的图像检索的重要进展，通过在大规模数据集上进行训练获得显著的泛化能力，实现了图像和文本的跨模态理解，促进了自然语言理解和计算机视觉的无缝集成，为多媒体应用中的信息检索提供了强大的工具。

Jan, 2024

使用科学论文数据训练 CLIP 模型

通过使用科学论文的文本 - 图像数据，该研究探索在特定领域内加入具有更高质量的有限数量数据是否能够提高 CLIP 模型的整体性能。小规模实验结果显示模型性能有中等程度的提升，表明使用该研究所考虑的数据来源来训练大规模 CLIP 模型是一个有价值的研究方向。

Nov, 2023

利用反事实图像强化预训练模型

该论文提出了一种新的框架，通过语言引导生成对抗图片来加强分类模型。通过使用对抗图片数据集来测试模型的弱点，并将对抗图片作为增加的数据集来微调和加固分类模型，研究揭示了使用小规模对抗图片进行微调可以有效增强模型的性能。

Jun, 2024

利用文本 - 图像对比模型的能力自动检测在线谣言

本研究旨在探究对抗学习在虚假信息识别中的应用。通过开发自学模型并在 COSMOS 数据集上进行全面实验，我们发现采用对抗学习能够大幅减少训练数据，同时在数据量不足时显示出优于传统分类器的非匹配图像 - 文本对检测性能提高约 10% 的稳定性和可比性。

Apr, 2023

VT-CLIP: 使用视觉引导文本增强视觉语言模型

提出一种名为 VT-CLIP 的方法来增强 CLIP 模型，它通过可视化引导文本，使文本的特征更适应图片，在多分类任务中表现出很高的效果。

Dec, 2021

C-CLIP：用于缩小描述性文字之间差距的对比图像 - 文本编码器

通过训练对比图像 - 文本编码器，利用明确的评论式对提高检索结果的准确性进行了大幅改进，并且这种改进可扩展至多种非英语语言。

Sep, 2023

检索增强对比视觉 - 文本模型

本论文提出了 RECO 模型，该模型通过外部记忆检索获取精细化知识，应用于现有视觉文本模型中，并在 Stanford Cars、CUB-2011 和 OVEN benchmark 等多项任务中取得了显著性能提升。

Jun, 2023