基于词性的视觉语言模型子空间

May, 2023

Parts of Speech-Grounded Subspaces in Vision-Language Models

James Oldfield, Christos Tzelepis, Yannis Panagakis, Mihalis A. Nicolaou, Ioannis Patras

TL;DR本文提出了一种通过语法组件分解学习 CLIP 模型中视觉 - 语言联合空间不同视觉模态的基本变化，从而获得解耦的图像和模态表示的方法，并证明其在图像合成和零样本分类方面的有效性。

Abstract

latent image representations arising from vision-language models have proved immensely useful for a variety of downstream tasks. However, their utility is limited by their entanglement with respect to different visual attributes. For instance, recent work has shown that CLIP image repr

latent image representations clip model component analysis model disentangled representations visual modalities

发现论文，激发创造

通过视觉表示精炼视觉 - 语言模型中的偏差感知

通过使用简单的线性探测器，本研究探讨了如何从 CLIP 的嵌入中有效地提取特定任务的核心特征，结果显示 CLIP 的文本表示往往受到了有偏向的预训练数据中具有误导性的相关性的影响，实证结果表明相比文本嵌入，依赖于 CLIP 的视觉表示更为实用，可克服内置偏见。

May, 2024

在 CLIP 中区分视觉和文本概念

本篇论文探讨了 CLIP 网络上单词图片和自然图片表征的纠缠度，发现其图像编码器可以将单词图片与描述相符的自然图片匹配，但同时处理字母的过程是与含义处理分离的，使用者还提出了一种有效的侧重隔离或排除拼写能力的表征子空间的方法，并对其在检索任务和生成图片方面进行了验证。

Jun, 2022

基于子空间表示与学习的音系口语语言识别

本研究提出了一种基于子空间表示的新的学习机制，可用于从话语中提取隐藏的音位结构以进行语言验证和方言 / 口音识别，并通过核机器（如支持向量机和基于子空间的神经网络）的子空间学习实现。

Mar, 2022

在基于图像场景环境的语义空间中融合视觉语义到句子表示中

本文目的在于通过学习一种中间的 representation space 将视觉信息转移到文本表示中，以解决由于一个视觉场景可以有多种描述方式所导致的文字表示和学习中的问题，作者还提出了两个新的目标，来保证相关元素之间的相似性跨领域地保持和提高分类和语义相关性任务的性能。

Feb, 2020

对比视觉语言模型中的感知分组

本篇论文研究视觉 - 语言模型在理解图像中物体所在区域和组合视觉相关部分方面的表现，提出一种最小的修改方案，获得了先进的无监督分割结果和对冗余相关性的鲁棒性。

Oct, 2022

如果 CLIP 能说话：通过其首选概念描述理解视觉 - 语言模型的表示

我们利用强化学习的方法提出了一种新颖的方法 ——Extract and Explore (EX2)，用于表征 Vision-Language Model (VLM) 的重要文本特征，并发现 VLM 在表示视觉概念时显著依赖于非视觉属性。

Mar, 2024

基于语言的动作概念空间改进视频自监督学习

使用自监督学习方法，对图像 CLIP 模型进行语言约束的调整，以适应视频领域，提高三个行动识别基准测试的零样本和线性探测性能。

Jul, 2023

多模态 LLM 的视觉缺陷探究

通过对 CLIP 模型的视觉嵌入空间与仅视觉自监督学习的对比研究，我们发现最新的多模态大型语言模型（MLLMs）在视觉能力方面仍然存在系统性缺陷。为了解决这些问题，我们提出了一种特征混合（MoF）方法，通过将视觉自监督学习特征与 MLLMs 相结合，显著提高了它们的视觉基础能力，从而表明视觉表示学习仍然是一个待解决的问题，并且准确的视觉基础对于未来成功的多模态系统至关重要。

Jan, 2024

基于语义表示的语言偏差图像分类评估

通过引入基于认知科学文献的方法工具，本研究介绍了一项基准测试来评估人工模型的偏差，并使用这个基准测试评估了 CLIP 模型。我们发现，虽然单词嵌入的图像会扭曲 CLIP 模型在不同类别级别上的图像分类，但这种影响不依赖于图像和嵌入单词之间的语义关系，这表明 CLIP 视觉处理中的语义词表示与图像表示不共享。

Jan, 2022

HGCLIP：基于图表示的层次理解视觉 - 语言模型的探索

我们提出了一种将 CLIP 与图表示学习相结合以更深入地利用分层类结构的新框架（HGCLIP），通过将类层次结构构建成一个图，其中其节点代表每个类别的文本或图像特征，通过图编码器，文本特征结合了分层结构信息，而图像特征通过注意机制强调了从原型派生的类别感知特征，我们的方法在通用和细粒度视觉识别基准上均取得了显著的改进。

Nov, 2023