C-CLIP：用于缩小描述性文字之间差距的对比图像 - 文本编码器

Sep, 2023

C-CLIP：用于缩小描述性文字之间差距的对比图像 - 文本编码器

C-CLIP: Contrastive Image-Text Encoders to Close the Descriptive-Commentative Gap

William Theisen, Walter Scheirer

TL;DR通过训练对比图像 - 文本编码器，利用明确的评论式对提高检索结果的准确性进行了大幅改进，并且这种改进可扩展至多种非英语语言。

Abstract

The interplay between the image and comment on a social media post is one of high importance for understanding its overall message. Recent

image comment social media clip retrieval

发现论文，激发创造

使用 CLIP 的半监督图像字幕生成

本文提出了一种利用 CLIP 模型进行半监督图像标注的方法，包括图像编码器、映射网络和语言模型，通过对比生成的标题和实际标题，并使用未标记的图像进行二次训练，得到了与完整数据集训练的业界最先进模型相比可比的性能，且标题更加独特、信息量更大，并且符合人类的偏好。

Jun, 2023

民主化对比语言 - 图像预训练：一个数据、模型和监督的 CLIP 基准

本文提出 CLIP-benchmark，对 CLIP 及其变种进行评估、分析和基准测试，并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。

Mar, 2022

增强图像检索：基于 CLIP 模型的照片搜索的全面研究

CLIP 模型是基于文本查询的图像检索的重要进展，通过在大规模数据集上进行训练获得显著的泛化能力，实现了图像和文本的跨模态理解，促进了自然语言理解和计算机视觉的无缝集成，为多媒体应用中的信息检索提供了强大的工具。

Jan, 2024

使用 CLIP 奖励的细粒度图像字幕生成

本研究提出使用基于大规模图像 - 文本对训练的多模态编码器 CLIP 计算多模态相似度并将其用作奖励函数来产生更加具有描述性和独特性的标题，同时证明使用 CLIP 奖励相较于传统奖励模板对于改善生成模型具有优势，并介绍了一种简单的 CLIP 文本编码器微调策略以提高语法。

May, 2022

使用 CLIP 潜变量的分层文本条件图像生成

提出一个两阶段模型，先用 prior 生成 CLIP 图像嵌入，再由 decoder 在图像嵌入的条件下生成图像。实验表明该模型可以提高图像的多样性，并在完美保留语义和风格前提下变化非必要的细节。利用扩散模型作为 decoder, 同时使用自回归和扩散模型作为 prior，发现后者更加高效且产生的样本更优。

Apr, 2022

MedCLIP: 对未配对的医学影像和文本进行对比学习

本文提出了一种用于对医学图像和文本进行训练的的简单而有效的框架 ——MedCLIP，该框架采用了对抗学习和多模式学习，并引入医学知识语义匹配。实验结果表明，MedCLIP 在零样本预测、有监督分类和图像文本检索等方面超过了现有最佳方法。令人惊讶的是，仅使用了 20K 的预训练数据就超过了使用约 200K 数据的现有最佳方法。

Oct, 2022

用两步重述细调 CLIP 文本编码器

通过引入一个简单的微调方法，我们提出了一种改进 CLIP 模型对于释义的表征的方法，该方法使用大规模语言模型从 Web 规模的图像字幕中自动创建两类释义，并在固定图像编码器的同时微调 CLIP 文本编码器。我们的模型 ParaCLIP 在各种任务中都显示出与基准 CLIP 模型相比的显著改进，包括释义检索、Visual Genome 关系和属性，以及七个语义文本相似度任务。

Feb, 2024

ComCLIP: 无须训练的图文组合匹配

本文通过提出一种新颖的训练免费的组合 CLIP 模型 (ComCLIP) 来解决复合图像和文本匹配的问题，通过将输入图像分解为主题、对象和动作子图像，并组合 CLIP 的视觉编码器和文本编码器来在组成性文本嵌入和子图像嵌入上执行动态匹配，从而实现了对差异性语义的建模，提高了 CLIP 的零样本推理能力。

Nov, 2022

使用科学论文数据训练 CLIP 模型

通过使用科学论文的文本 - 图像数据，该研究探索在特定领域内加入具有更高质量的有限数量数据是否能够提高 CLIP 模型的整体性能。小规模实验结果显示模型性能有中等程度的提升，表明使用该研究所考虑的数据来源来训练大规模 CLIP 模型是一个有价值的研究方向。

Nov, 2023

长文本 CLIP: 解锁 CLIP 的长文本能力

通过引入 Long-CLIP 作为 CLIP 的替代方案，本研究提供了一种支持长文本输入的方法，并保持了零样本泛化能力，提高了长标题文本 - 图像检索和传统文本 - 图像检索任务的性能。

Mar, 2024