使用 CLIP 奖励的细粒度图像字幕生成

ACLMay, 2022

使用 CLIP 奖励的细粒度图像字幕生成

Fine-grained Image Captioning with CLIP Reward

Jaemin Cho, Seunghyun Yoon, Ajinkya Kale, Franck Dernoncourt, Trung Bui...

TL;DR本研究提出使用基于大规模图像 - 文本对训练的多模态编码器 CLIP 计算多模态相似度并将其用作奖励函数来产生更加具有描述性和独特性的标题，同时证明使用 CLIP 奖励相较于传统奖励模板对于改善生成模型具有优势，并介绍了一种简单的 CLIP 文本编码器微调策略以提高语法。

Abstract

Modern image captioning models are usually trained with text similarity objectives. However, since reference captions in public datasets often describe the most salient common objects, models trained with text similarity objectives tend to ignore specific and detailed aspects of an ima

image captioning multimodal similarity clip finecapeval grammar finetuning

发现论文，激发创造

使用 CLIP 的半监督图像字幕生成

本文提出了一种利用 CLIP 模型进行半监督图像标注的方法，包括图像编码器、映射网络和语言模型，通过对比生成的标题和实际标题，并使用未标记的图像进行二次训练，得到了与完整数据集训练的业界最先进模型相比可比的性能，且标题更加独特、信息量更大，并且符合人类的偏好。

Jun, 2023

CLIPScore：一种基于参照无关的图像字幕评估指标

自然语言和图片联合训练的 CLIP 模型可用于基于图像的字幕的评估过程中，而无需参考词，CLIPScore 作为一种新的无参考评估指标可以实现与人类判断的最高相关性。

Apr, 2021

更新 CLIP 以偏爱描述而非标题

通过使用 Concadia 数据集来更新 CLIP 模型，使用参数高效微调和基于因果可解释性的损失目标，以区分描述和标题，并获得盲人和弱视人群的判断，同时保持转移能力和可解释性结构。

Jun, 2024

ClipCap: 图像字幕的 CLIP 前缀

本文使用 CLIP 编码作为前缀，利用简单的映射网络，然后微调语言模型以生成图像标题，无需额外的注释或预训练，有效地为大规模和多样化的数据集生成有意义的标题。同时，我们证明了我们的模型在有挑战性的概念标题和 nocaps 数据集上取得了可比较的结果，同时更简单、更快、更轻。

Nov, 2021

CgT-GAN：基于 CLIP 引导的文本 GAN 用于图像字幕生成

提出了一个 CLIP 引导的文本生成对抗网络 (CgT-GAN) 模型，通过引入图像数据进行训练，结合语义指导奖励 (CLIP-based reward) 和生成文本的自然度奖励来生成与外部语料库相似的文字。在实验证明，CgT-GAN 在各项指标上明显优于现有的最先进方法。

Aug, 2023

通过 CLIP 引导的分组优化实现独特的图像字幕

本研究聚焦于生成能够区分目标图像和其他相似图像的独特描述，引入了一系列使用大规模视觉 - 语言预训练模型 CLIP 量化独特性的度量标准，并提出了一种简单有效的训练策略，通过比较目标图像与相似图像组并优化组嵌入差距来提高字幕生成模型的独特性，通过与现有最先进的模型的性能比较，我们宣称我们的模型在独特性目标上达到了新的最先进水平。

Aug, 2022

用两步重述细调 CLIP 文本编码器

通过引入一个简单的微调方法，我们提出了一种改进 CLIP 模型对于释义的表征的方法，该方法使用大规模语言模型从 Web 规模的图像字幕中自动创建两类释义，并在固定图像编码器的同时微调 CLIP 文本编码器。我们的模型 ParaCLIP 在各种任务中都显示出与基准 CLIP 模型相比的显著改进，包括释义检索、Visual Genome 关系和属性，以及七个语义文本相似度任务。

Feb, 2024

CLIP 与优质字幕：强大的视觉任务预训练

简要概述：通过改进图像 - 文本数据集中标题的质量，有助于改善 CLIP 模型的视觉表示质量，并在密集预测视觉任务中取得显著的性能提升。

May, 2024

C-CLIP：用于缩小描述性文字之间差距的对比图像 - 文本编码器

通过训练对比图像 - 文本编码器，利用明确的评论式对提高检索结果的准确性进行了大幅改进，并且这种改进可扩展至多种非英语语言。

Sep, 2023

使用对比学习和面向任务的 CLIP 特征的组合图像检索

利用 OpenAI CLIP 模型中的视觉和文本特征进行任务细化微调，然后通过训练 Combiner 网络来整合双模态信息，并提供用于检索的组合特征，结果表明这种方法在复合图像检索方面优于当前先进方法。

Aug, 2023