CLIP 为视觉美学学习者带来更好的特征

Jul, 2023

CLIP 为视觉美学学习者带来更好的特征

CLIP Brings Better Features to Visual Aesthetics Learners

Liwu Xu, Jinjin Xu, Yuzhe Yang, Yijie Huang, Yanchun Xie...

TL;DR旨在提升图像审美评估（IAA）的性能，本研究提出了统一且灵活的两阶段 CSKD（CLIP-based Semi-supervised Knowledge Distillation）范式。通过特征对齐损失，该方法整合和利用多源无标签数据集，将给定的视觉编码器与现成的 CLIP 图像编码器之间的丰富特征进行对齐。在使用半监督 IAA 学习的过程中，利用无标签数据进一步增强学生模型的性能。实验证明 CSKD 在多个广泛使用的 IAA 基准测试中具有卓越性能。

Abstract

The success of pre-training approaches on a variety of downstream tasks has revitalized the field of computer vision. image aesthetics assessment (IAA) is one of the ideal application scenarios for such methods d

pre-training approaches image aesthetics assessment clip-based semi-supervised knowledge distillation feature alignment loss state-of-the-art performance

发现论文，激发创造

CLIP-KD：CLIP 模型蒸馏的实证研究

通过使用关系、特征、梯度和对比范式等多种蒸馏策略对基于大型教师 CLIP 模型的小型 CLIP 模型进行监督，本研究在零样本 ImageNet 分类和跨模态检索基准上一致提升了学生 CLIP 模型的性能，提供了重要的 CLIP 蒸馏研究基准。

Jul, 2023

使用 CLIP 的半监督图像字幕生成

本文提出了一种利用 CLIP 模型进行半监督图像标注的方法，包括图像编码器、映射网络和语言模型，通过对比生成的标题和实际标题，并使用未标记的图像进行二次训练，得到了与完整数据集训练的业界最先进模型相比可比的性能，且标题更加独特、信息量更大，并且符合人类的偏好。

Jun, 2023

SCLIP：为密集视觉语言推理重新思考自注意力

通过引入新的自相关自注意力（CSA）机制，增强了 CLIP 在语义分割方面的潜力，并且在零样本 mIoU 方面明显优于现有的 SoTA 结果和原始的 CLIP。

Dec, 2023

使用知识蒸馏和自训练提高 CLIP 的鲁棒性

利用 LP-CLIP 技术通过引入一个线性探测层来提高 CLIP 的鲁棒性，该技术利用 CLIP 生成的伪标签以及自训练策略进行训练，无需注释数据，能够增强模型在真实场景中应对多种不确定性和挑战的能力，并在各种数据集上实现了 SOTA 结果

Sep, 2023

可学习查询的图像美学评估

通过可学习的查询（IAA-LQ）方法，从预训练的图像特征中提取美学特征，对图像进行美学评估，在真实世界数据上表现优于最先进的方法 2.2％的 SRCC 和 2.1％的 PLCC。

Sep, 2023

民主化对比语言 - 图像预训练：一个数据、模型和监督的 CLIP 基准

本文提出 CLIP-benchmark，对 CLIP 及其变种进行评估、分析和基准测试，并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。

Mar, 2022

S-CLIP: 使用少量特定字幕的半监督视觉 - 语言预训练

提出了一种半监督学习方法 S-CLIP，利用额外的非配对图像数据为基于对比学习的语言图像预训练模型 CLIP 训练，采用两个伪标签策略，分别针对对比学习和语言模态，能够显著增强 CLIP 的训练，取得了在遥感、时尚、科学图像和漫画等多个领域中的令人瞩目的表现。

May, 2023

CLIP-TD：针对视觉语言任务的 CLIP 目标蒸馏

本研究提出了一项名为 CLIP-TD 的方法，对视觉 - 语言任务进行有针对性的蒸馏，以适应每个实例自适应选择的标记。经过实验证明，我们的 CLIP-TD 在视觉常识推理，视觉蕴涵推理和视觉问答的低量数据和领域迁移条件下获得了显着的增益，并在这些任务上取得了最先进的性能。

Jan, 2022

探索 CLIP 用于评估图像外观和感觉

本文介绍了如何利用 CLIP 模型中的丰富视觉语言先验，以零样本方式评估图像的质量感受和抽象感知，实验结果表明 CLIP 具有很好的泛化能力。

Jul, 2022

CLIP 模型是少样本学习器：基于 VQA 和视觉蕴涵的实证研究

本文实证表明，CLIP 通过利用语言的能力可以成为强大的视觉 - 语言少样本学习器。我们评估了 CLIP 在典型的视觉问答任务和视觉蕴含任务的零样本性能，并提出了一种参数有效的微调策略，以提高少样本性能，最终取得了有竞争力的零样本 /few-shot 结果。

Mar, 2022