优化 CLIP 模型以保持联合嵌入对齐的图像检索

Sep, 2024

优化 CLIP 模型以保持联合嵌入对齐的图像检索

Optimizing CLIP Models for Image Retrieval with Maintained Joint-Embedding Alignment

Konstantin Schall, Kai Uwe Barthel, Nico Hezel, Klaus Jung

TL;DR本文解决了 CLIP 模型在处理图像相似性搜索时，面对视觉上不同但文本描述相似的图像时表现不佳的问题。我们提出并评估了两种新方法来优化图像检索能力，同时保持文本和图像嵌入的对齐。实验证明这些方法在多个基准测试中提升了 CLIP 的性能，尤其在图像检索和零-shot 分类方面表现突出。

Abstract

Contrastive Language and Image Pairing (CLIP), a transformative method in multimedia retrieval, typically trains two neural networks concurrently to generate joint embeddings for text and image pairs. However, when applied directly, these models often struggle to differentiate between

发现论文，激发创造

CLIP4Clip: CLIP耦合视频检索的实证研究

本研究提出了CLIP4Clip模型，将CLIP模型的知识以端到端的方式迁移到视频-文本检索上，从多个角度对其表现进行实验证明其在各种数据集上比其他模型表现更好，同时释放其代码供学术界使用。

Apr, 2021

CLIP2Video: 通过Image CLIP掌握视频文本检索

CLIP2Video 网络通过将图像语言预训练模型转移到视频文本检索，采用端到端方式，区别于领先的视频和语言学习方法的多模态交互，我们利用预训练的图像语言模型，进一步简化为两个具体阶段的框架，使其能够在相对较少的数据集上进行训练，并通过 Temporal Difference Block 和 Temporal Alignment Block 来提升多模态相关性，我们在 MSR-VTT，MSVD 和 VATEX 等主要文本到视频和视频到文本检索基准上实现了最新的检索准确性记录。

Jun, 2021

CLIP-Hitchhiker的长视频检索指南

本文旨在将图像-文本模型应用于长视频检索，并通过查询打分的帧嵌入的加权平均作为时间建模有效基线，提出一种在长视频检索基准测试中表现卓越的改善方法。

May, 2022

CLIP-ViP：基于预训练图文模型的视频语言表示对齐

通过对数据规模和语言源域差异的研究，本文提出了一种基于CLIP的OmniSource跨模态学习方法，称为CLIP-ViP，通过视频代理机制改进后续预训练CLIP，从而实现显著提高视频-文本检索的性能。该方法在多个数据集上均取得了SOTA结果。

Sep, 2022

使用对比学习和面向任务的CLIP特征的组合图像检索

利用OpenAI CLIP模型中的视觉和文本特征进行任务细化微调，然后通过训练Combiner网络来整合双模态信息，并提供用于检索的组合特征，结果表明这种方法在复合图像检索方面优于当前先进方法。

Aug, 2023

增强图像检索：基于CLIP模型的照片搜索的全面研究

CLIP模型是基于文本查询的图像检索的重要进展，通过在大规模数据集上进行训练获得显著的泛化能力，实现了图像和文本的跨模态理解，促进了自然语言理解和计算机视觉的无缝集成，为多媒体应用中的信息检索提供了强大的工具。

Jan, 2024

长文本CLIP: 解锁CLIP的长文本能力

通过引入Long-CLIP作为CLIP的替代方案，本研究提供了一种支持长文本输入的方法，并保持了零样本泛化能力，提高了长标题文本-图像检索和传统文本-图像检索任务的性能。

Mar, 2024

学习从图像描述到视频检索

我们提出了一种协议来研究使用未标注视频进行文本到视频检索训练，在这种协议下，我们不假设对任何视频有标签的访问，即没有对应用真实字幕的视频集的访问权限；但我们可以通过文本形式访问有标签的图片。使用图像专家模型是一个现实的场景，因为注释图像比昂贵的视频标注方案更便宜且可扩展。最近，零样本学习的图像专家，如CLIP已经为视频理解任务建立了强大的基准线。在本文中，我们利用这一进展，实例化两种类型的图像专家模型：文本到图像检索模型用于提供初始骨架，以及图像字幕模型用于向未标注视频提供监督信号。我们展示了通过使用图像字幕自动标记视频帧，可以进行文本到视频检索训练。这个过程可以在没有手动标注成本的情况下适应目标领域的特征，进而在文本到视频检索任务中胜过强大的零样本学习基准线CLIP。在训练过程中，我们从多个最佳匹配视觉内容的视频帧中采样字幕，并通过对每个字幕的相关性对帧表示进行时间汇集。我们进行了广泛的消融实验来提供深入见解，并通过在三个标准数据集（ActivityNet、MSR-VTT和MSVD）上胜过CLIP的零样本学习基准线来证明这个简单框架的有效性。

Apr, 2024

为改写检索调整双编码图像-语言模型

通过改进训练策略，对双编码器模型进行优化，提高了语义相似性的检索结果，同时保持了零样本分类和检索准确性。

May, 2024

微调CLIP以推理成对差异

本研究解决了CLIP在嵌入空间缺乏类文本模型所具备的结构性的问题。通过在对比学习中优化CLIP，使图像嵌入空间中的差异与生成的文本描述对应，从而显著提升了图像排名和零样本分类表现，推动了图像分类任务的进步。此外，提出的比较提示机制进一步增强了分类效果，展现出嵌入空间中的几何属性。

Sep, 2024