CLIP-Art: 微粒级艺术分类的对比式预训练

CVPRApr, 2022

CLIP-Art: 微粒级艺术分类的对比式预训练

CLIP-Art: Contrastive Pre-training for Fine-Grained Art Classification

Marcos V. Conde, Kerem Turgutlu

TL;DR使用 CLIP 方法训练神经网络，实现了自由形式的艺术品描述和精细标签的学习，在计算机视觉和艺术品属性识别中具有较高实用价值，以 iMet 数据集为基础，使用自监督学习获得了有竞争力的结果。

Abstract

Existing computer vision research in artwork struggles with artwork's fine-grained attributes recognition and lack of curated annotated da

computer vision artwork clip neural network imet dataset

发现论文，激发创造

利用基于 CLIP 的多模态方法进行艺术品分类与检索

在艺术作品领域中，我们通过对艺术品图像进行多模式图像预训练，并使用最新的 CLIP 模型，在 NoisyArt 数据集上进行了详尽的实验，取得了令人印象深刻的（零样本）分类效果和良好的艺术品之间及描述与艺术品之间的效果。

Sep, 2023

消除 CLIP 数据的神秘

以数据筛选为核心的对比语言 - 图像预训练及元数据筛选的方法 MetaCLIP，在多个标准基准测试中优于 CLIP 以 CommonCrawl 为数据源的结果，MetaCLIP 在零样本 ImageNet 分类中达到 70.8% 的准确率，并在 1B 数据的情况下保持相同的训练预算达到 72.4% 的准确率。

Sep, 2023

FiGCLIP: 细粒度 CLIP 适应通过密集标注视频

通过基于 VidSitu 数据集的细节导向字幕和层级损失，我们改进了 contrastive language image pretraining (CLIP) 模型，提高了其对细粒度和句法的理解能力，并在不同任务中取得了稳定的改进。

Jan, 2024

高效对比语言 - 图像预训练：数据质量优先于数量

我们提出了一种理论上严谨的数据选择方法，通过保留图像和标题的交叉协方差，提高 Contrastive Language-Image Pre-training 模型的泛化性能，并在 ConceptualCaptions3M 和 ConceptualCaptions12M 上进行的实验证明，我们的子集相比其他基线方法，可在 ImageNet 和其变体上实现超过 2.7 倍和 1.4 倍的准确度，同时，在 11 个下游数据集中平均准确度达到其他基线方法的 1.5 倍。

Mar, 2024

民主化对比语言 - 图像预训练：一个数据、模型和监督的 CLIP 基准

本文提出 CLIP-benchmark，对 CLIP 及其变种进行评估、分析和基准测试，并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。

Mar, 2022

使用科学论文数据训练 CLIP 模型

通过使用科学论文的文本 - 图像数据，该研究探索在特定领域内加入具有更高质量的有限数量数据是否能够提高 CLIP 模型的整体性能。小规模实验结果显示模型性能有中等程度的提升，表明使用该研究所考虑的数据来源来训练大规模 CLIP 模型是一个有价值的研究方向。

Nov, 2023

无处不在的监管：一种数据高效的对比语言图像预训练范式

本文提出一种用于 Contrastive Language-Image Pre-training (CLIP) 的新的训练方法，Data efficient CLIP (DeCLIP)，通过充分利用图像 - 文本对之间的广泛监督来更有效地学习通用视觉特征，在使用较少数据的情况下实现 60.4% 的零样本 top1 准确率，并在转化到下游任务时优于常规 CLIP 模型。

Oct, 2021

增强图像检索：基于 CLIP 模型的照片搜索的全面研究

CLIP 模型是基于文本查询的图像检索的重要进展，通过在大规模数据集上进行训练获得显著的泛化能力，实现了图像和文本的跨模态理解，促进了自然语言理解和计算机视觉的无缝集成，为多媒体应用中的信息检索提供了强大的工具。

Jan, 2024

CLIP 融合模型库专家：视觉增强的伪监督

通过在 CLIP 训练中结合任务特定的视觉模型，利用伪标签来改进其视觉表示，该简单的设置在不妨碍现有性能的前提下，显著提高了不同视觉任务的效果。

Oct, 2023

用两步重述细调 CLIP 文本编码器

通过引入一个简单的微调方法，我们提出了一种改进 CLIP 模型对于释义的表征的方法，该方法使用大规模语言模型从 Web 规模的图像字幕中自动创建两类释义，并在固定图像编码器的同时微调 CLIP 文本编码器。我们的模型 ParaCLIP 在各种任务中都显示出与基准 CLIP 模型相比的显著改进，包括释义检索、Visual Genome 关系和属性，以及七个语义文本相似度任务。

Feb, 2024