HGCLIP：基于图表示的层次理解视觉 - 语言模型的探索

Nov, 2023

HGCLIP：基于图表示的层次理解视觉 - 语言模型的探索

HGCLIP: Exploring Vision-Language Models with Graph Representations for Hierarchical Understanding

Peng Xia, Xingtong Yu, Ming Hu, Lie Ju, Zhiyong Wang...

TL;DR我们提出了一种将 CLIP 与图表示学习相结合以更深入地利用分层类结构的新框架（HGCLIP），通过将类层次结构构建成一个图，其中其节点代表每个类别的文本或图像特征，通过图编码器，文本特征结合了分层结构信息，而图像特征通过注意机制强调了从原型派生的类别感知特征，我们的方法在通用和细粒度视觉识别基准上均取得了显著的改进。

Abstract

object categories are typically organized into a multi-granularity taxonomic hierarchy. When classifying categories at different hierarchy levels, traditional uni-modal approaches focus primarily on image features, revealing limitations in complex scenarios. Recent studies integrating

object categories multi-granularity taxonomic hierarchy vision-language models hierarchical class structure graph representation learning

发现论文，激发创造

利用大型语言模型的描述进行视觉分类

本文介绍了一种基于描述符的视觉语言模型分类方法，通过查询大型语言模型获取描述符，实现从中获得更多的信息并提供可解释性；实验证明了该方法在图像分类精度，适应新概念和缓解偏差等方面有着广泛的优势。

Oct, 2022

HiCLIP: 基于分层感知注意力的对比语言 - 图像预训练

本文提出了用层级感知的注意力机制改进 CLIP 模型，以更好的捕捉图像和文本的高层语义，并在视觉识别和与视觉相关的下游任务中获得良好的结果。

Mar, 2023

通过级联视觉语言模型提升细粒度图像分类

本研究介绍了 CascadeVLM，一种创新的框架，通过有效地利用大型视觉 - 语言模型（LVLMs）内固有的精细知识，克服了以前基于 CLIP 的方法的限制。在各种细粒度图像数据集上的实验表明，CascadeVLM 在 Stanford Cars 数据集上显著优于现有模型，达到了令人印象深刻的 85.6% 的零样本准确性。性能增益分析验证了 LVLM 对于 CLIP 不确定的复杂图像的更准确预测，从而提高了整体准确性。我们的框架为有效和高效的细粒度图像分类提供了 VLM 与 LVLM 的整体集成方法。

May, 2024

CLoVe: 对比视觉语言模型中的组合式语言编码

近年来，视觉与语言任务的性能显著提升。本文介绍了一个框架，极大地提高了现有模型对构成性语言的编码能力，在构成性基准测试中绝对改进了 10%，同时在标准的对象识别和检索基准测试中保持或提高了性能。

Feb, 2024

ChatGPT 强化层次比较在图像分类中的应用

使用预训练的视觉 - 语言模型，通过分层比较的方式，解决零样本开放词汇挑战中的图像分类问题，克服了 CLIP 中的偏差，实现了直观、有效且可解释的方法。

Nov, 2023

如果 CLIP 能说话：通过其首选概念描述理解视觉 - 语言模型的表示

我们利用强化学习的方法提出了一种新颖的方法 ——Extract and Explore (EX2)，用于表征 Vision-Language Model (VLM) 的重要文本特征，并发现 VLM 在表示视觉概念时显著依赖于非视觉属性。

Mar, 2024

3VL：使用树结构教授视觉与语言模型组合概念

通过引入树增强视觉语言（3VL）模型架构和训练技术，以及我们提出的锚定推理方法和差分相关性（DiRe）可解释性工具，本研究扩展任意图像 - 文本对的文本内容为分层树状结构，并将该结构引入模型学习的视觉表示，提高了模型的解释能力和组合推理能力，同时展示了锚定和差分相关性工具的应用。

Dec, 2023

通过视觉表示精炼视觉 - 语言模型中的偏差感知

通过使用简单的线性探测器，本研究探讨了如何从 CLIP 的嵌入中有效地提取特定任务的核心特征，结果显示 CLIP 的文本表示往往受到了有偏向的预训练数据中具有误导性的相关性的影响，实证结果表明相比文本嵌入，依赖于 CLIP 的视觉表示更为实用，可克服内置偏见。

May, 2024

视觉 - 语言模型的跨模态概念学习和推理

使用大规模预训练的视觉语言模型（如 CLIP）及跨模态概念学习和推理（CCLI）方法，能够通过文本和图像之间的相关性自动学习图像的视觉概念，并构建区分性的图像表示，从而提高少样本学习和领域泛化等图像分类任务的性能。

Jul, 2023

为何视觉与语言结合的模型在图像分类上不佳？

基于本文的研究发现，将分类聚焦的数据集整合到可视语言模型的训练中可以提高其分类性能，并将性能提升转移到其一般能力上，对于新收集的 ImageWikiQA 数据集，准确率提高了 11.8%。

May, 2024