Feb, 2024

通过反事实文本引导的对比语言 - 图像预训练理解新闻缩略图代表性

TL;DR本文研究了新闻缩略图的代表性问题,重点关注新闻图像是否能够准确地代表新闻文本的主题。我们提出了一个手动标注的新闻缩略图和文本对的数据集 NewsTT,并发现预训练的视觉和语言模型在这个任务中遇到困难。为了弥补这一差距,我们提出了 CFT-CLIP,一个反事实文本引导的对比语言 - 图像预训练框架。通过对比新闻文本与其替代实体的反事实文本,我们提出该框架可以增强跨模态匹配能力。使用 NewsTT 数据集的评估实验证明 CFT-CLIP 比预训练模型(如 CLIP 和 BLIP-2)性能更好。本文的代码和数据将在接受后向公众开放。