视觉 - 文本交叉对齐：在视觉 - 语言模型中优化相似度评分

ICMLJun, 2024

视觉 - 文本交叉对齐：在视觉 - 语言模型中优化相似度评分

Visual-Text Cross Alignment: Refining the Similarity Score in Vision-Language Models

Jinhao Li, Haopeng Li, Sarah Erfani, Lei Feng, James Bailey...

TL;DR使用预训练的视觉 - 语言模型对查询图像和细致的文本描述进行对齐可以显著增强零样本性能，因此我们提出了一种加权视觉 - 文本交叉对齐（WCA）方法，该方法通过局部视觉提示技术确定查询图像中的局部视觉区域，并通过创建基于预训练视觉 - 语言模型的相似性矩阵将这些局部视觉区域与细致的描述进行对齐，然后根据此矩阵中的加权相似度开发了一个评分函数来确定查询图像与每个类别的对齐情况，实验证明我们的方法显著提高了零样本性能，结果甚至可以与少样本学习方法相媲美。

Abstract

It has recently been discovered that using a pre-trained vision-language model (VLM), e.g., CLIP, to align a whole query image with several finer text descriptions generated by a large language model can significantly enhance zero-shot performance. However, in this paper, we empiricall

pre-trained vision-language model weighted visual-text cross alignment zero-shot performance local visual areas score function

发现论文，激发创造

从文本角度探究跨模态语义对齐能力

本文提出了一种基于图像字幕生成的新型探测方法，用于研究视觉语言预训练模型中跨模态语义对齐的内部机制，发现 VLP 模型对齐的主要是对象和视觉词，忽略了全局语义，还存在固定的句子模式，无视语法和流畅性等问题。

Oct, 2022

基于图像和描述之间的结构相似性的零样本指称表达理解

用大型基础模型在视觉和文本之间解耦，并通过计算结构相似矩阵和三元组匹配来提高零样本参照表达理解及视觉定位性能。

Nov, 2023

视觉 - 语言模型的跨模态概念学习和推理

使用大规模预训练的视觉语言模型（如 CLIP）及跨模态概念学习和推理（CCLI）方法，能够通过文本和图像之间的相关性自动学习图像的视觉概念，并构建区分性的图像表示，从而提高少样本学习和领域泛化等图像分类任务的性能。

Jul, 2023

视觉对齐中的图像识别：优先考虑视觉相似性

通过对比图像输入，对每个文本标记的预测值差异提供了强大的视觉关联指导，我们提出了对每个文本标记赋予不同贡献的方法，名为 Contrastive ALignment (CAL)。我们的实验证明，CAL 方法在各种基准数据集上始终改善了不同类型的 VLM，并且与其他数据调整策略相比，我们的方法具有最小的额外计算开销。

May, 2024

对比式视觉 - 语言对齐提高指示学习效率

通过将 Contrastive 和 Generative 方法应用于 ViT 和 LLM 的表示对齐，我们提出了 CG-VLM 模型，有效地实现了视觉 - 语言的对齐，成为一种高效的指令学习器。

Nov, 2023

视觉语言模型的零样本识别挑战：粒度和正确性

本文研究视觉与语言模型在零样本视觉识别任务中的应用难点，并针对对比视觉 - 语言模型（CLIP）等模型进行探讨。研究表明，模型更擅长识别细粒度概念，并且相似度评分并不能严格反映相应文本描述的准确性。作者提出了评价方法，以评估其学习性偏差问题，并发现相似的模糊描述很容易被模型混淆识别。本研究凸显了在开放环境下使用视觉与语言模型的挑战，并为进一步提高其零样本能力提出了方向建议。

Jun, 2023

VT-CLIP: 使用视觉引导文本增强视觉语言模型

提出一种名为 VT-CLIP 的方法来增强 CLIP 模型，它通过可视化引导文本，使文本的特征更适应图片，在多分类任务中表现出很高的效果。

Dec, 2021

利用大型语言模型的描述进行视觉分类

本文介绍了一种基于描述符的视觉语言模型分类方法，通过查询大型语言模型获取描述符，实现从中获得更多的信息并提供可解释性；实验证明了该方法在图像分类精度，适应新概念和缓解偏差等方面有着广泛的优势。

Oct, 2022

通过使用文本描述使 VLMs 适应性更好的零射分类改进

通过使用大型语言模型（LLMs）生成的类别描述和丰富的细粒度图像分类数据集，我们提出了一种方法来改善视觉 - 语言模型（VLMs）在细粒度领域的零样本分类性能。通过在训练过程中利用图像 - 文本监督，我们的方法在鸟类和花卉等新颖类别的零样本分类准确度上平均提高了 4-5％。地理先验也被证明对于改善零样本分类同样有效，与视觉特征互补。我们计划发布包含 7 个数据集的基准测试，以促进未来的零样本识别研究。

Jan, 2024

图像文本匹配的交叉堆叠注意力

本文研究图像文本匹配问题，提出了一种使用交叉注意力机制的方法来发现包括图像区域和句子单词在内的全部潜在对齐，从而推断图像与文本之间的相似性，实验结果在 MS-COCO 和 Flickr30K 数据集上均表现为最先进的水平。

Mar, 2018