CLIPSelf：视觉 Transformer 用于开放词汇密集预测的自我精简

Oct, 2023

CLIPSelf：视觉 Transformer 用于开放词汇密集预测的自我精简

CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense Prediction

Size Wu, Wenwei Zhang, Lumin Xu, Sheng Jin, Xiangtai Li...

TL;DR该论文对 CLIP 模型中的区域 - 语言对齐进行了深入分析，并提出了一种名为 CLIPSelf 的方法，该方法能够将 CLIP ViTs 的图像级识别能力应用到局部图像区域中，从而在开放式词汇密集预测任务中取得了最新的最优性能。

Abstract

Open-vocabulary dense prediction tasks including object detection and image segmentation have been advanced by the success of Contrastive Language-Image Pre-training (clip). →

contrastive language-image pre-training clip vision transformers region-language alignment dense prediction tasks

发现论文，激发创造

RegionCLIP: 基于区域的语言 - 图像预训练

RegionCLIP 是一种新的方法，扩展了 CLIP 模型的范围，使其可以学习区域级别的视觉表征，从而实现图像区域和文本概念之间的细粒度对齐，进而在目标检测领域表现出良好的性能。

Dec, 2021

SCLIP：为密集视觉语言推理重新思考自注意力

通过引入新的自相关自注意力（CSA）机制，增强了 CLIP 在语义分割方面的潜力，并且在零样本 mIoU 方面明显优于现有的 SoTA 结果和原始的 CLIP。

Dec, 2023

CLIP 与优质字幕：强大的视觉任务预训练

简要概述：通过改进图像 - 文本数据集中标题的质量，有助于改善 CLIP 模型的视觉表示质量，并在密集预测视觉任务中取得显著的性能提升。

May, 2024

CLIP-TD：针对视觉语言任务的 CLIP 目标蒸馏

本研究提出了一项名为 CLIP-TD 的方法，对视觉 - 语言任务进行有针对性的蒸馏，以适应每个实例自适应选择的标记。经过实验证明，我们的 CLIP-TD 在视觉常识推理，视觉蕴涵推理和视觉问答的低量数据和领域迁移条件下获得了显着的增益，并在这些任务上取得了最先进的性能。

Jan, 2022

CLIP-VIS：适应开放词汇视频实例分割

本研究提出了一个名为 CLIP-VIS 的简单编码器 - 解码器网络，用于自适应开放词汇视频实例分割。CLIP-VIS 采用冻结的 CLIP 图像编码器，并引入了类不可知的掩码生成、时序 Top-K 增强匹配和加权开放词汇分类三个模块，实验结果表明该方法在各种视频实例分割数据集上表现出色。

Mar, 2024

CLIP 手术技术用于开放式任务的解释性增强

CLIP（Contrastive Language-Image Pre-training）是一种强大的多模态视觉模型，该论文提出了一种 CLIP Surgery 方法，可以在不降低性能的情况下提升 CLIP 的解释性和性能，并在开放词汇任务中获得了显着的提高，如 NUS-Wide 多标签识别上得到了 4.41% 的平均精度提升，Cityscapes 开放词汇语义分割任务上的 mIoU 也超过了现有方法的 8.74%。

Apr, 2023

CLIP-DIY：CLIP 密集推理免费实现开放词汇语义分割

本文提出了一种名为 CLIP-DIY 的开放词汇语义分割方法，该方法利用现有的无监督目标定位方法，直接在不同尺度的补丁上利用 CLIP 的分类能力，并通过无监督的目标定位方法指导分割过程，从而在 PASCAL VOC 上获得了最新的零样本语义分割结果，并在 COCO 上表现与最佳方法相当。

Sep, 2023

ReCLIP：使用源域自适应提炼对比语言图像预训练

通过提出 ReCLIP 方法，第一个无需源数据或目标标记数据的视觉 - 语言模型领域自适应方法，该方法使用伪标签进行交叉模态自训练以减小领域间差异和错位对模型性能的影响，在 22 个图像分类基准测试中将 CLIP 的平均错误率从 30.17% 降低到 25.06%。

Aug, 2023

无需进一步训练即可将 CLIP 用于短语定位

利用对比语言 - 视觉模型 CLIP，我们可以实现无需人工注释或额外训练的短语定位方法，其零样本短语定位性能优于现有无训练方法，并在某些情况下甚至超过了有监督的方法。

Apr, 2022

RWKV-CLIP：一个稳健的视觉 - 语言表示学习器

通过扩展数据集和模型架构，该研究进一步探索了具有对比语言 - 图像预训练（CLIP）的视觉语言任务的性能，在处理来自网站的图像 - 文本对时。通过引入多样化的描述生成框架，该研究提出了 RWKV-CLIP，其中结合了变压器的有效并行训练和循环神经网络的高效推理。通过广泛的实验和多种模型规模和预训练数据集，证明了 RWKV-CLIP 是一个强大而有效的视觉语言表征学习器，在线性探测、零样例分类和零样例图像 - 文本检索等多个下游任务中实现了最先进的性能。

Jun, 2024