基于视觉信息的描述提升零样本图像分类

Jun, 2023

基于视觉信息的描述提升零样本图像分类

Visually-Grounded Descriptions Improve Zero-Shot Image Classification

Michael Ogezi, Bradley Hauer, Grzegorz Kondrak

TL;DR本文提出了一种名为 V-GLOSS 的方法，利用现代语言模型和语义知识库生成视觉上有根据的类别描述，进而解决现有方法中存在的粒度和标签歧义问题。通过在 ImageNet 和 STL-10 等基准 ZSIC 数据集上实现最新的结果，证明了 V-GLOSS 的有效性，并引入了一个 V-GLOSS 生成的类别描述的银数据集，并展示了它在视觉任务中的有用性。

Abstract

Language-vision models like clip have made significant progress in zero-shot vision tasks, such as zero-shot image classification (ZSIC). However, generating specific and expressive class descriptions remains a major challenge. Existing approaches suffer from granularity and label ambi

clip zero-shot vision tasks visual glosses semantic knowledge bases zsic datasets

发现论文，激发创造

利用大型语言模型的描述进行视觉分类

本文介绍了一种基于描述符的视觉语言模型分类方法，通过查询大型语言模型获取描述符，实现从中获得更多的信息并提供可解释性；实验证明了该方法在图像分类精度，适应新概念和缓解偏差等方面有着广泛的优势。

Oct, 2022

通过使用文本描述使 VLMs 适应性更好的零射分类改进

通过使用大型语言模型（LLMs）生成的类别描述和丰富的细粒度图像分类数据集，我们提出了一种方法来改善视觉 - 语言模型（VLMs）在细粒度领域的零样本分类性能。通过在训练过程中利用图像 - 文本监督，我们的方法在鸟类和花卉等新颖类别的零样本分类准确度上平均提高了 4-5％。地理先验也被证明对于改善零样本分类同样有效，与视觉特征互补。我们计划发布包含 7 个数据集的基准测试，以促进未来的零样本识别研究。

Jan, 2024

通过引导裁剪实现零样本视觉分类

我们提出了 GC-CLIP，通过在预处理步骤中使用现成的零样本目标检测模型，增加零样本分类器对感兴趣目标的关注，并减少无关图像区域的影响，从而提高了零样本分类结果。

Sep, 2023

增强 CLIP 的改进视觉语言推理

通过使用不同的图像参数化方法，利用生成模型和巧妙设计的蒸馏目标，我们提出了一种轻量级而高效的方法 SDS-CLIP，来改善 CLIP 模型的组合视觉 - 语言推理能力并在多个数据集上显示了显著的性能提升。

Jul, 2023

生成图像特定文本改进细粒度图像分类

提出了一种从仅包含图像的数据集中生成图像特定的精细文本描述，并证明这些文本描述可以用于改进分类的方法 GIST，并通过在图像和生成的文本对上对视觉语言模型进行微调以学习对齐的视觉语言表示空间，从而在多个领域的四个不同领域的细粒度分类数据集上实现了 4.1% 的准确率提升，并在全样本和少样本情况下实现了类似的改进。

Jul, 2023

一个开放词汇的零样本分割的简单框架

通过使用冻结的仅包含视觉信息的模型和融合离散文本和语言知识的方式，我们提出了 SimZSS，一种用于开放性词汇的零样本分割的简单框架。在仅使用图像 - 标题对数据集进行训练的情况下，我们的方法利用了视觉表示的质量，并在不到 15 分钟的时间内在 8 个基准数据集中的 7 个上实现了最先进的结果。

Jun, 2024

无 Token 留存：可解释性辅助的图像分类与生成

本研究提出了一种基于解释性的方法来解决在零样本学习和图像生成中使用 CLIP 时输入文本的稳定性问题，此方法通过增加一项损失项来确保 CLIP 关注所有相关的语义部分，并且可以提高图像识别率和生成图像的质量。同时，研究还展示了 CLIP 在一次性分类、对生成模型进行指导和有空间条件的基于文本的图像生成方面的新型应用。

Apr, 2022

视觉语言模型的零样本识别挑战：粒度和正确性

本文研究视觉与语言模型在零样本视觉识别任务中的应用难点，并针对对比视觉 - 语言模型（CLIP）等模型进行探讨。研究表明，模型更擅长识别细粒度概念，并且相似度评分并不能严格反映相应文本描述的准确性。作者提出了评价方法，以评估其学习性偏差问题，并发现相似的模糊描述很容易被模型混淆识别。本研究凸显了在开放环境下使用视觉与语言模型的挑战，并为进一步提高其零样本能力提出了方向建议。

Jun, 2023

语义组合提升视觉 - 语言对比学习

通过引入语义组合样本，我们通过一个简单的技术（称为 CLIP-C），显著改善了零样本图像分类和跨模态检索的能力，而不需要额外的计算开销或模型参数增加。

Jul, 2024

基于视觉语义嵌入的广义零样本识别

本文提出了一种新颖的广义零样本学习（GZSL）方法，它对训练期间的未见图像和未见语义向量具有不可知性。通过提出一种视觉实例的低维嵌入来打破视觉 - 语义间隙，并借助一个新的视觉神谕来量化噪声语义数据的影响，以提高准确性。在一系列数据集上用图模型进行推理的实验结果显示，该方法在语义和视觉监督下均明显优于现有技术。

Nov, 2018