ClipCap: 图像字幕的 CLIP 前缀

Nov, 2021

ClipCap: CLIP Prefix for Image Captioning

Ron Mokady, Amir Hertz, Amit H. Bermano

TL;DR本文使用CLIP编码作为前缀，利用简单的映射网络，然后微调语言模型以生成图像标题，无需额外的注释或预训练，有效地为大规模和多样化的数据集生成有意义的标题。同时，我们证明了我们的模型在有挑战性的概念标题和nocaps数据集上取得了可比较的结果，同时更简单、更快、更轻。

Abstract

image captioning is a fundamental task in vision-language understanding, where the model predicts a textual informative caption to a given input image. In this paper, we present a simple approach to address this task. We use CLIP encoding as a prefix to the caption, by employing a simp

发现论文，激发创造

从展示到描述：深度学习图像字幕化综述

本文综合研究图像描述中的视觉编码、文本生成、训练策略、数据集和评估指标等方面，量化比较多个相关的最前沿方法，以识别体系结构和训练策略中最具影响力的技术创新并探讨问题的许多变体和开放挑战，旨在为理解现有文献和强调计算机视觉和自然语言处理领域的未来方向提供工具。

Jul, 2021

CLIP-TD：针对视觉语言任务的CLIP目标蒸馏

本研究提出了一项名为CLIP-TD的方法，对视觉-语言任务进行有针对性的蒸馏，以适应每个实例自适应选择的标记。经过实验证明，我们的CLIP-TD在视觉常识推理，视觉蕴涵推理和视觉问答的低量数据和领域迁移条件下获得了显着的增益，并在这些任务上取得了最先进的性能。

Jan, 2022

标题：标题值得1000张图片？控制学习的研究

通过比较图像和语言数据的传输表现，研究证明，当预训练数据集足够大而又包含了低变异性的描述性标题时，对于分类任务来说，仅使用图像的方法不能与CLIP的传输性能相匹配。

Jul, 2022

CLIP-ViP：基于预训练图文模型的视频语言表示对齐

通过对数据规模和语言源域差异的研究，本文提出了一种基于CLIP的OmniSource跨模态学习方法，称为CLIP-ViP，通过视频代理机制改进后续预训练CLIP，从而实现显著提高视频-文本检索的性能。该方法在多个数据集上均取得了SOTA结果。

Sep, 2022

利用大型语言模型将视觉数据融合到丰富的图像标题中的FuseCap

本文提出了一种用于创建图像标题的方法，通过采用额外的视觉信息，包括对象检测器、识别器等来丰富标题，经大型语言模型融合，生成全面的图像描述。实验证明，该方法有效，所提供的数据集显着提高了图像-文本检索。

May, 2023

使用CLIP的半监督图像字幕生成

本文提出了一种利用CLIP模型进行半监督图像标注的方法，包括图像编码器、映射网络和语言模型，通过对比生成的标题和实际标题，并使用未标记的图像进行二次训练，得到了与完整数据集训练的业界最先进模型相比可比的性能，且标题更加独特、信息量更大，并且符合人类的偏好。

Jun, 2023

从稀缺到高效：通过视觉丰富的标题改进CLIP训练

本研究关注于通过改善数据质量和数据多样性，特别强调了视觉概念与标题的整合，提出了一种用于web爬取数据集训练的新方法VeCLIP，通过综合评估数据效率和模型性能，证明了VeCLIP在改善图片-文本对齐和整体模型性能方面的显著优势。

Oct, 2023

FiGCLIP: 细粒度CLIP适应通过密集标注视频

通过基于 VidSitu 数据集的细节导向字幕和层级损失，我们改进了 contrastive language image pretraining (CLIP) 模型，提高了其对细粒度和句法的理解能力，并在不同任务中取得了稳定的改进。

Jan, 2024

用两步重述细调CLIP文本编码器

通过引入一个简单的微调方法，我们提出了一种改进CLIP模型对于释义的表征的方法，该方法使用大规模语言模型从Web规模的图像字幕中自动创建两类释义，并在固定图像编码器的同时微调CLIP文本编码器。我们的模型ParaCLIP在各种任务中都显示出与基准CLIP模型相比的显著改进，包括释义检索、Visual Genome关系和属性，以及七个语义文本相似度任务。

Feb, 2024

DreamLIP：长描述文本的语言-图像预训练

通过在大规模语言模型中生成详细描述的长标题，我们提出了一种动态采样子标题的方法，以在对比学习框架中构建多个正向对并使用分组损失进行自监督训练，实验证明该方法在多种下游任务上具有明显优势。

Mar, 2024