学会更好地说 “是” 的方法：通过否定改进视觉语言模型

Mar, 2024

学会更好地说 “是” 的方法：通过否定改进视觉语言模型

Learn "No" to Say "Yes" Better: Improving Vision-Language Models via Negations

Jaisidh Singh, Ishaan Shrivastava, Mayank Vatsa, Richa Singh, Aparna Bharati

TL;DR通过引入 CC-Neg 数据集和 CoN-CLIP 框架，我们的工作解决了视觉语言模型中一个重要的局限性，加强了图像和文本之间的语义关联，展示了具有显著降低计算成本的改进型大规模基础模型，提升了效率和可访问性。

Abstract

Existing vision-language models (VLMs) treat text descriptions as a unit, confusing individual concepts in a prompt and impairing visual semantic matching and reasoning. An important aspect of reasoning in logic and language is →

vision-language models negations cc-neg dataset con-clip framework semantic associations

发现论文，激发创造

视频检索中的否定理解学习

本研究使用现有数据集 (VATEX, MSR-VTT) 重新构建评估协议，提出了一种基于学习的方法来训练具有否定意义的视频检索模型，该方法通过部分否定原标题来为特定训练视频构建软负标题，然后计算三元组的双向约束损失，将这个辅助损失加权到标准检索损失中。实验证明，使用所提出的方法重新训练 CLIP 模型能够明显提高处理具有否定查询的能力，同时还提高了模型在原始基准测试中的表现。

Apr, 2022

对比视觉语言细粒度理解中的同模态句式和排名跨模态硬负例

为了解决 Vision and Language Models 对于细致的理解和 fine-grained 任务的挑战，本研究提出一种基于 intra-modal 和 cross-modal rank loss 的策略，该策略不需要额外的注释或参数，可应用于任何使用图像 - 文本对比损失训练的 VLMs。在应用于 CLIP 上时，该方法在三个细粒度基准测试上显著提高了性能，并增强了 X-VLM 在细粒度推理上的表现。

Jun, 2023

语义组合提升视觉 - 语言对比学习

通过引入语义组合样本，我们通过一个简单的技术（称为 CLIP-C），显著改善了零样本图像分类和跨模态检索的能力，而不需要额外的计算开销或模型参数增加。

Jul, 2024

视觉 - 语言模型的跨模态概念学习和推理

使用大规模预训练的视觉语言模型（如 CLIP）及跨模态概念学习和推理（CCLI）方法，能够通过文本和图像之间的相关性自动学习图像的视觉概念，并构建区分性的图像表示，从而提高少样本学习和领域泛化等图像分类任务的性能。

Jul, 2023

视觉 - 语言模型是否理解复合名词？

开放词汇视觉 - 语言模型（VLMs）如 CLIP 是一种有前景的文本到图像检索方法，然而，对于复合名词（CN）是否能像对待名词一样理解得好呢？本研究构建了 Compun 基准测试以评估 VLMs 在解释 CNs 方面的有效性，并深入分析了 CLIP 对某些类型的 CNs 的有限理解。同时，提出了一种超越手写模板的替代框架，通过利用大型语言模型生成包含 CNs 的多样化描述来提高 CLIP 对 CNs 的理解。通过我们的方法在 Compun 上将 CN 的理解能力提高了 8.25%。

Mar, 2024

CLIP-Nav: 使用 CLIP 进行零样本视觉与语言导航

本研究主要探讨利用 CLIP 模型在零样本情况下，通过描述目标对象的自然语言参考表达式来解决零样本视觉语言导航问题，并在 REVERIE 数据集上比较 CLIP 模型和监督学习模型的性能。结果显示，采用 CLIP 零样本方法的导航能力优于基于模板的监督学习方法，并且在相对成功率（RCS）方面具有更好的泛化性能。

Nov, 2022

动词在行动：提高视频语言模型中动词理解能力

本研究提出了一个新的以动词为中心对比学习（Verb-Focused Contrastive，VFC）框架，以改善基于 CLIP 的视频语言模型的动词理解。该方法采用预训练的大型语言模型（LLMs）创建难样本进行跨模态对比学习，以及实施细粒度的动词短语对齐损失。该方法在三个下游任务上实现了零射击性能的最新成果，包括视频文本匹配、视频问答和视频分类。

Apr, 2023

概念引导下的提示学习进行视觉 - 语言模型泛化

通过概念引导提示学习的方式，CPL 方法显著提高了通用化性能。

Jan, 2024

增强 CLIP 的改进视觉语言推理

通过使用不同的图像参数化方法，利用生成模型和巧妙设计的蒸馏目标，我们提出了一种轻量级而高效的方法 SDS-CLIP，来改善 CLIP 模型的组合视觉 - 语言推理能力并在多个数据集上显示了显著的性能提升。

Jul, 2023

视觉语言模型的零样本识别挑战：粒度和正确性

本文研究视觉与语言模型在零样本视觉识别任务中的应用难点，并针对对比视觉 - 语言模型（CLIP）等模型进行探讨。研究表明，模型更擅长识别细粒度概念，并且相似度评分并不能严格反映相应文本描述的准确性。作者提出了评价方法，以评估其学习性偏差问题，并发现相似的模糊描述很容易被模型混淆识别。本研究凸显了在开放环境下使用视觉与语言模型的挑战，并为进一步提高其零样本能力提出了方向建议。

Jun, 2023