通过 CLIP 引导的分组优化实现独特的图像字幕

ECCVAug, 2022

通过 CLIP 引导的分组优化实现独特的图像字幕

Distinctive Image Captioning via CLIP Guided Group Optimization

Youyuan Zhang, Jiuniu Wang, Hao Wu, Wenjia Xu

TL;DR本研究聚焦于生成能够区分目标图像和其他相似图像的独特描述，引入了一系列使用大规模视觉 - 语言预训练模型 CLIP 量化独特性的度量标准，并提出了一种简单有效的训练策略，通过比较目标图像与相似图像组并优化组嵌入差距来提高字幕生成模型的独特性，通过与现有最先进的模型的性能比较，我们宣称我们的模型在独特性目标上达到了新的最先进水平。

Abstract

image captioning models are usually trained according to human annotated ground-truth captions, which could generate accurate but generic captions. In this paper, we focus on generating distinctive captions that

image captioning distinctive captions pre-training model training strategy state-of-the-art

发现论文，激发创造

基于分组的记忆关注图像独特描述

本研究提出了一种基于组的独特字幕模型 (GdisCap)，使用组内图像比较方法来提高图像字幕的独特性，并引入了基于组的记忆关注机制 (GMA) 来突出每个图像的唯一性，从而提高字幕的独特性。实验结果表明所提出的方法在准确性和独特性方面均表现出最先进的性能。

Aug, 2021

独特的图像字幕化：借助 CLIP 引导强化学习的基准真实字幕

用训练图像字幕模型的教师强迫方法生成的样本非常通用，而更具有独特性的字幕对于检索应用或生成描述图像的替代文本以提高可访问性非常有用。这篇论文提出了一种新的图像字幕模型训练策略，其中利用了不同方式的真实字幕，从而在保持高写作质量的同时生成高度独特的字幕。

Feb, 2024

图像字幕的对比学习

本文提出一种基于对比学习的图像字幕生成方法，即在参考模型的基础上，通过两个约束条件，鼓励生成独特的字幕，从而提高字幕的质量和独特性。我们在两个挑战性数据集上测试了该方法，并证明它是通用的并可用于不同结构的模型。

Oct, 2017

使用 CLIP 的半监督图像字幕生成

本文提出了一种利用 CLIP 模型进行半监督图像标注的方法，包括图像编码器、映射网络和语言模型，通过对比生成的标题和实际标题，并使用未标记的图像进行二次训练，得到了与完整数据集训练的业界最先进模型相比可比的性能，且标题更加独特、信息量更大，并且符合人类的偏好。

Jun, 2023

使用 CLIP 奖励的细粒度图像字幕生成

本研究提出使用基于大规模图像 - 文本对训练的多模态编码器 CLIP 计算多模态相似度并将其用作奖励函数来产生更加具有描述性和独特性的标题，同时证明使用 CLIP 奖励相较于传统奖励模板对于改善生成模型具有优势，并介绍了一种简单的 CLIP 文本编码器微调策略以提高语法。

May, 2022

CLIP 与优质字幕：强大的视觉任务预训练

简要概述：通过改进图像 - 文本数据集中标题的质量，有助于改善 CLIP 模型的视觉表示质量，并在密集预测视觉任务中取得显著的性能提升。

May, 2024

通过比较和重新加权进行独特图像字幕

本研究旨在通过比较和重新加权计算一组相似图像来提高图像字幕的独特性。我们提出了一种称为 CIDErBtw 的独特性度量，用于衡量字幕与类似图像的独特性，并在训练期间重新加权了每个人工注释，以提高生成的字幕的独特性和准确性。

Apr, 2022

高效对比语言 - 图像预训练：数据质量优先于数量

我们提出了一种理论上严谨的数据选择方法，通过保留图像和标题的交叉协方差，提高 Contrastive Language-Image Pre-training 模型的泛化性能，并在 ConceptualCaptions3M 和 ConceptualCaptions12M 上进行的实验证明，我们的子集相比其他基线方法，可在 ImageNet 和其变体上实现超过 2.7 倍和 1.4 倍的准确度，同时，在 11 个下游数据集中平均准确度达到其他基线方法的 1.5 倍。

Mar, 2024

ClipCap: 图像字幕的 CLIP 前缀

本文使用 CLIP 编码作为前缀，利用简单的映射网络，然后微调语言模型以生成图像标题，无需额外的注释或预训练，有效地为大规模和多样化的数据集生成有意义的标题。同时，我们证明了我们的模型在有挑战性的概念标题和 nocaps 数据集上取得了可比较的结果，同时更简单、更快、更轻。

Nov, 2021

更新 CLIP 以偏爱描述而非标题

通过使用 Concadia 数据集来更新 CLIP 模型，使用参数高效微调和基于因果可解释性的损失目标，以区分描述和标题，并获得盲人和弱视人群的判断，同时保持转移能力和可解释性结构。

Jun, 2024