视觉 - 语言模型是否理解复合名词？

ACLMar, 2024

视觉 - 语言模型是否理解复合名词？

Do Vision-Language Models Understand Compound Nouns?

Sonal Kumar, Sreyan Ghosh, S Sakshi, Utkarsh Tyagi, Dinesh Manocha

TL;DR开放词汇视觉 - 语言模型（VLMs）如 CLIP 是一种有前景的文本到图像检索方法，然而，对于复合名词（CN）是否能像对待名词一样理解得好呢？本研究构建了 Compun 基准测试以评估 VLMs 在解释 CNs 方面的有效性，并深入分析了 CLIP 对某些类型的 CNs 的有限理解。同时，提出了一种超越手写模板的替代框架，通过利用大型语言模型生成包含 CNs 的多样化描述来提高 CLIP 对 CNs 的理解。通过我们的方法在 Compun 上将 CN 的理解能力提高了 8.25%。

Abstract

open-vocabulary vision-language models (VLMs) like clip, trained using contrastive loss, have emerged as a promising new paradigm for text

open-vocabulary vision-language models contrastive loss compound nouns text-to-image retrieval clip

发现论文，激发创造

CLoVe: 对比视觉语言模型中的组合式语言编码

近年来，视觉与语言任务的性能显著提升。本文介绍了一个框架，极大地提高了现有模型对构成性语言的编码能力，在构成性基准测试中绝对改进了 10%，同时在标准的对象识别和检索基准测试中保持或提高了性能。

Feb, 2024

探索视觉语言组合性和识别的光谱

研究了视觉和语言模型领域的复杂关系，特别是在语言理解和细粒度图像与文本对齐方面，探索并评估了现有的 VLMs，在组合性和识别准确性之间的模式和权衡，提出了改进两者能力和基准的策略性努力的必要性。

Jun, 2024

学会更好地说 “是” 的方法：通过否定改进视觉语言模型

通过引入 CC-Neg 数据集和 CoN-CLIP 框架，我们的工作解决了视觉语言模型中一个重要的局限性，加强了图像和文本之间的语义关联，展示了具有显著降低计算成本的改进型大规模基础模型，提升了效率和可访问性。

Mar, 2024

多语言场景的渐进式视觉语言知识蒸馏和对齐框架

我们提出了一个概念简单但有效的多语言 CLIP 压缩框架，并训练了一个轻量级的多语言视觉 - 语言模型 DC-CLIP，用于中文和英文环境。在零样本图像分类方面的综合实验表明，相比于现有的类似参数规模的模型，DC-CLIP 在英文环境中取得了优越的性能，在中文环境中表现出竞争性能，即使使用较少的训练数据。我们设计的训练机制证明了其有效性。

Apr, 2024

视觉 - 语言模型的跨模态概念学习和推理

使用大规模预训练的视觉语言模型（如 CLIP）及跨模态概念学习和推理（CCLI）方法，能够通过文本和图像之间的相关性自动学习图像的视觉概念，并构建区分性的图像表示，从而提高少样本学习和领域泛化等图像分类任务的性能。

Jul, 2023

语义组合提升视觉 - 语言对比学习

通过引入语义组合样本，我们通过一个简单的技术（称为 CLIP-C），显著改善了零样本图像分类和跨模态检索的能力，而不需要额外的计算开销或模型参数增加。

Jul, 2024

探究大型视觉语言模型的概念理解

本文介绍了一种新的框架，用于探究和提升视觉语言模型的关系、组合和上下文理解。我们提出了一个基准数据集来检测内容理解的三个方面。我们实验了 5 种流行的模型，并发现它们大多数难以展示出概念理解。然而，我们发现交叉注意力可以帮助学习概念理解，并提出了一种新的微调技术，以奖励我们提出的三个概念理解措施。我们希望这些基准测试可以帮助社区评估和改进大型视觉语言模型的概念理解能力。

Apr, 2023

学习组合视觉 - 语言神经模块用于图像字幕生成

本文提出了一种基于 Collocate Visual-Linguistic Neural Modules (CVLNM) 的图像标题生成算法，其中包含四个编码器模块和一个解码器模块，并使用自注意力和基于词性的语法损失来提高鲁棒性和准确性，实验结果表明在 MS-COCO 数据集上取得了最新的 129.5 CIDEr-D 的表现。

Oct, 2022

3VL：使用树结构教授视觉与语言模型组合概念

通过引入树增强视觉语言（3VL）模型架构和训练技术，以及我们提出的锚定推理方法和差分相关性（DiRe）可解释性工具，本研究扩展任意图像 - 文本对的文本内容为分层树状结构，并将该结构引入模型学习的视觉表示，提高了模型的解释能力和组合推理能力，同时展示了锚定和差分相关性工具的应用。

Dec, 2023

大型视觉 - 语言模型中的复合推理引导

使用一种新颖的生成方法，我们对大型视觉语言模型（如 GPT-4）进行控制，以描述图像并进行组合推理，在 Winoground 数据集上优于其他嵌入式方法，并在最佳描述的增强下获得最高 10% 的准确率改进。

Jan, 2024