无需进一步训练即可将 CLIP 用于短语定位

Apr, 2022

无需进一步训练即可将 CLIP 用于短语定位

Adapting CLIP For Phrase Localization Without Further Training

Jiahao Li, Greg Shakhnarovich, Raymond A. Yeh

TL;DR利用对比语言 - 视觉模型 CLIP，我们可以实现无需人工注释或额外训练的短语定位方法，其零样本短语定位性能优于现有无训练方法，并在某些情况下甚至超过了有监督的方法。

Abstract

Supervised or weakly supervised methods for phrase localization (textual grounding) either rely on human annotations or some other supervised models, e.g., object detectors. Obtaining these annotations is labor-intensive and may be difficult to scale in practice. We propose to leverage

phrase localization textual grounding contrastive language-vision models clip zero-shot phrase localization

发现论文，激发创造

CLIP 融合模型库专家：视觉增强的伪监督

通过在 CLIP 训练中结合任务特定的视觉模型，利用伪标签来改进其视觉表示，该简单的设置在不妨碍现有性能的前提下，显著提高了不同视觉任务的效果。

Oct, 2023

RegionCLIP: 基于区域的语言 - 图像预训练

RegionCLIP 是一种新的方法，扩展了 CLIP 模型的范围，使其可以学习区域级别的视觉表征，从而实现图像区域和文本概念之间的细粒度对齐，进而在目标检测领域表现出良好的性能。

Dec, 2021

使用 CLIP 的半监督图像字幕生成

本文提出了一种利用 CLIP 模型进行半监督图像标注的方法，包括图像编码器、映射网络和语言模型，通过对比生成的标题和实际标题，并使用未标记的图像进行二次训练，得到了与完整数据集训练的业界最先进模型相比可比的性能，且标题更加独特、信息量更大，并且符合人类的偏好。

Jun, 2023

ReCLIP：使用源域自适应提炼对比语言图像预训练

通过提出 ReCLIP 方法，第一个无需源数据或目标标记数据的视觉 - 语言模型领域自适应方法，该方法使用伪标签进行交叉模态自训练以减小领域间差异和错位对模型性能的影响，在 22 个图像分类基准测试中将 CLIP 的平均错误率从 30.17% 降低到 25.06%。

Aug, 2023

S-CLIP: 使用少量特定字幕的半监督视觉 - 语言预训练

提出了一种半监督学习方法 S-CLIP，利用额外的非配对图像数据为基于对比学习的语言图像预训练模型 CLIP 训练，采用两个伪标签策略，分别针对对比学习和语言模态，能够显著增强 CLIP 的训练，取得了在遥感、时尚、科学图像和漫画等多个领域中的令人瞩目的表现。

May, 2023

无处不在的监管：一种数据高效的对比语言图像预训练范式

本文提出一种用于 Contrastive Language-Image Pre-training (CLIP) 的新的训练方法，Data efficient CLIP (DeCLIP)，通过充分利用图像 - 文本对之间的广泛监督来更有效地学习通用视觉特征，在使用较少数据的情况下实现 60.4% 的零样本 top1 准确率，并在转化到下游任务时优于常规 CLIP 模型。

Oct, 2021

CLIP 能帮助声源定位吗？

利用大规模预训练的图像 - 文本模型对声源定位进行了扩展，通过音频信号与图像的对应关系，生成音频驱动的嵌入向量，以此对提供的音频生成驱动遮罩，并提取高亮区域的音频驱动图像特征，并与音频驱动的嵌入向量进行对齐，实现声音对象的更完整和更紧凑的定位图。广泛实验证明，该方法在表现上优于最先进的方法。

Nov, 2023

CLIP-DINOiser: 教授 CLIP 一些 DINO 的技巧

我们提出了一种零样本开放词汇语义分割方法，无需任何注释，通过从自监督特征中提取出的定位先验来局部改进密集的 MaskCLIP 特征，从而显著提升 MaskCLIP 的性能并产生平滑的输出。

Dec, 2023

CLIP 与优质字幕：强大的视觉任务预训练

简要概述：通过改进图像 - 文本数据集中标题的质量，有助于改善 CLIP 模型的视觉表示质量，并在密集预测视觉任务中取得显著的性能提升。

May, 2024

增强图像检索：基于 CLIP 模型的照片搜索的全面研究

CLIP 模型是基于文本查询的图像检索的重要进展，通过在大规模数据集上进行训练获得显著的泛化能力，实现了图像和文本的跨模态理解，促进了自然语言理解和计算机视觉的无缝集成，为多媒体应用中的信息检索提供了强大的工具。

Jan, 2024