CZL-CIAE: 基于 CLIP 的零样本学习用于修复逆龄估计

Dec, 2023

CZL-CIAE: 基于 CLIP 的零样本学习用于修复逆龄估计

CZL-CIAE: CLIP-driven Zero-shot Learning for Correcting Inverse Age Estimation

Yuntao Shou, Wei Ai, Tao Meng, Keqin Li

TL;DR基于 CLIP 的零样本学习在年龄估计中提高了预测效果，通过融合图像和文本语义信息，实现了更好的年龄预测结果。

Abstract

zero-shot age estimation aims to learn feature information about age from input images and make inferences about a given person's image or video frame without specific sample data. The development of zero-shot age estim

zero-shot age estimation clip-driven zero-shot learning age prediction social media multi-modal learning

发现论文，激发创造

Cascade-CLIP: 零样本语义分割的级联视觉 - 语言嵌入对齐

基于预训练视觉 - 语言模型的 Cascade-CLIP 方法，在零样本语义分割任务中通过引入一系列独立解码器，以级联方式将多层次的视觉特征与文本嵌入对齐，取得了优秀的性能。

Jun, 2024

EZ-CLIP：高效零样本视频行为识别

EZ-CLIP 是对 CLIP 的简单高效改进，通过引入时序视觉提示和新的学习目标，实现了在视频领域的零样本学习和基于视频动作识别的高效训练。

Dec, 2023

无 Token 留存：可解释性辅助的图像分类与生成

本研究提出了一种基于解释性的方法来解决在零样本学习和图像生成中使用 CLIP 时输入文本的稳定性问题，此方法通过增加一项损失项来确保 CLIP 关注所有相关的语义部分，并且可以提高图像识别率和生成图像的质量。同时，研究还展示了 CLIP 在一次性分类、对生成模型进行指导和有空间条件的基于文本的图像生成方面的新型应用。

Apr, 2022

AnoVL：面向统一零样本异常定位的视觉语言模型适应

使用 Contrastive Language-Image Pre-training (CLIP) 模型进行零样本异常检测，通过学习自然语言监督下的视觉表示，构建文本提示与全局图像级别表示之间的对应关系，采用训练自由的价值关注机制提取 CLIP 的内在局部标记以进行精确定位，设计一个统一的领域感知对比状态提示模板，通过测试时的自适应机制进一步优化异常定位结果。

Aug, 2023

语言能理解深度吗？

本文提出一种名为 DepthCLIP 的方法，将基于对比学习的语言 - 图像预训练（CLIP）应用于零样本单目深度估计任务中，成功地将语义上的知识迁移到了更为复杂的几何量化目标中，而无需训练，超越了现有的无监督方法，甚至接近了早期的全监督网络。

Jul, 2022

双图强化 CLIP 用于零样本异常检测

通过引入双图增强 CLIP 方法，结合视觉 - 语言评分系统，对图像异常检测进行了增强，包括利用图像进行相互参考以增强推理过程的视觉环境，以及在测试时引入合成异常来提高定位能力。该方法充分利用了视觉 - 语言联合异常检测的潜力，并在各种数据集上展现了与当前最先进方法相媲美的性能。

May, 2024

CLIPA-v2: 用 1 万美金预算训练，实现 81.1% 的零样本 ImageNet 准确率；再花 4000 美金可获得 81.8% 的准确率

通过研究表明，CLIPA 可以通过反比例尺度律以更低的计算成本实现高性能的训练，可以在 finetuning 阶段进一步减少计算需求，从而实现零样本 Imagenet 准确率的提高。

Jun, 2023

通过 LLM 知识传递提升零样本面部表情识别

本研究提出了一种名为 Exp-CLIP 的新方法，通过从大型语言模型（LLMs）中转移任务知识来增强零样例人脸表情识别。利用预训练的视觉 - 语言编码器，通过投影头将初始联合视觉 - 语言空间映射到捕捉面部动作表示的空间，以此训练投影头进行零样例预测，同时采用基于文本指令的策略定制 LLM 知识。Exp-CLIP 在七个野外人脸表情数据集上实现了优于 CLIP 模型和其他若干大型视觉 - 语言模型（LVLMs）的零样例结果。

May, 2024

将 CLIP 的知识转化为零样本点云语义分割

本文提出了一种简单而有效的基线方法，将 CLIP 中的视觉语言知识在特征和输出层面上转移到点云编码器，从而在零样本点云语义分割中取得了显著的性能提升，并在无标注点云语义分割设置中取得了有希望的结果，展示了其在标签效率学习方面的巨大潜力。

Dec, 2023

ZegCLIP：面向零样本语义分割的 CLIP 自适应

本文提出了一种基于 CLIP 的零样本语义分割方法 ZegCLIP，将其从图像级别扩展到像素级别，通过三种简单而有效的设计处理过拟合问题，具有更好的泛化能力和速度优势。

Dec, 2022