ColorFoil：大规模视觉与语言模型中色盲调查

May, 2024

ColorFoil：大规模视觉与语言模型中色盲调查

ColorFoil: Investigating Color Blindness in Large Vision and Language Models

Ahnaf Mozib Samin, M. Firoz Ahmed, Md. Mushtaq Shahriyar Rafee

TL;DR利用 Transformer 架构，大型图像和语言（V&L）模型在零样本设置中展现出了令人期待的性能。然而，一些研究指出，在处理复杂的语言学和视觉属性时，这些模型的稳健性不足。在这项工作中，我们引入了一个新颖的 V&L 基准测试 ——ColorFoil，通过创建与颜色相关的误导以评估模型对于检测红色、白色、绿色等颜色的感知能力。我们在零样本设置中评估了包括 CLIP、ViLT、GroupViT 和 BridgeTower 等七种最先进的 V&L 模型，并从中得出了有趣的发现。实验评估表明，相比于 CLIP 及其变种和 GroupViT，ViLT 和 BridgeTower 表现出更好的颜色感知能力。而且，基于 CLIP 的模型和 GroupViT 难以区分在人类正常颜色感知能力下具有视觉差异的颜色。

Abstract

With the utilization of transformer architecture, large Vision and Language (V&L) models have shown promising performance in even zero-shot settings. Several studies, however, indicate a lack of robustness of the models when dealing with complex linguistics and visual attributes. In th

transformer architecture vision and language models colorfoil v&l benchmark color perception

发现论文，激发创造

CoLLaVO: 蜡笔大规模语言与视觉模型

当前的视觉语言模型 (VLMs) 的图像理解能力与其在零样本视觉语言任务上的表现强相关。我们提出了一个新的视觉提示调整方案，即使用蜡笔提示进行指导调整，以提高对象级图像理解能力。此外，我们还提出了双重 QLoRA 学习策略，以在视觉指导调整过程中保持对象级图像理解能力，从而在零样本的多个视觉语言基准测试中取得了显著的进展。

Feb, 2024

ViTamin：设计可扩展的视觉模型在视觉语言时代

该论文介绍了一种基于对比性语言 - 图像预训练框架的视觉模型评估协议，其中引入了一种新的视觉模型 ViTamin，该模型在零样本任务和模型规模扩展等方面表现出色。

Apr, 2024

CLoVe: 对比视觉语言模型中的组合式语言编码

近年来，视觉与语言任务的性能显著提升。本文介绍了一个框架，极大地提高了现有模型对构成性语言的编码能力，在构成性基准测试中绝对改进了 10%，同时在标准的对象识别和检索基准测试中保持或提高了性能。

Feb, 2024

通过视觉表示精炼视觉 - 语言模型中的偏差感知

通过使用简单的线性探测器，本研究探讨了如何从 CLIP 的嵌入中有效地提取特定任务的核心特征，结果显示 CLIP 的文本表示往往受到了有偏向的预训练数据中具有误导性的相关性的影响，实证结果表明相比文本嵌入，依赖于 CLIP 的视觉表示更为实用，可克服内置偏见。

May, 2024

FOIL it! 寻找图像和语言描述间的一个不匹配

本文通过提出 FOIL-COCO 数据集并进行实验，证明现有的语言与视觉模型在理解两种模态之间的互动方面存在缺陷，并需要使用更加细致的文本与图像关联方法进行改进。

May, 2017

视觉语言模型的零样本识别挑战：粒度和正确性

本文研究视觉与语言模型在零样本视觉识别任务中的应用难点，并针对对比视觉 - 语言模型（CLIP）等模型进行探讨。研究表明，模型更擅长识别细粒度概念，并且相似度评分并不能严格反映相应文本描述的准确性。作者提出了评价方法，以评估其学习性偏差问题，并发现相似的模糊描述很容易被模型混淆识别。本研究凸显了在开放环境下使用视觉与语言模型的挑战，并为进一步提高其零样本能力提出了方向建议。

Jun, 2023

探究大型视觉语言模型的概念理解

本文介绍了一种新的框架，用于探究和提升视觉语言模型的关系、组合和上下文理解。我们提出了一个基准数据集来检测内容理解的三个方面。我们实验了 5 种流行的模型，并发现它们大多数难以展示出概念理解。然而，我们发现交叉注意力可以帮助学习概念理解，并提出了一种新的微调技术，以奖励我们提出的三个概念理解措施。我们希望这些基准测试可以帮助社区评估和改进大型视觉语言模型的概念理解能力。

Apr, 2023

CLIP 能为视觉语言任务带来多大的效益？

研究了在视觉与语言任务中使用大规模预训练模型 CLIP 作为视觉编码器以及其优势，通过在特定任务中微调和在预训练模型中与 V&L 相结合传递到下游任务，CLIP 显著优于现有的视觉编码器，并在多种视觉与语言任务中取得竞争或更好的结果，同时取得了 Visual Question Answering，Visual Entailment 和 V&L Navigation 等任务的新高峰。

Jul, 2021

视觉语言模型的可扩展性能分析

本文介绍了一种更具可伸缩性的方法，其根据从视觉 - 语言基准中提取的大量多样化特征，并测量它们与目标模型输出的相关性。通过该方法，作者确认了之前发现的 CLIP 表现类似于词袋模型，并且在名词和动词上表现更好；作者还发现 CLIP 在处理具体词语时会出现混淆。该框架可用于其他多模态模型和基准测试。

May, 2023

在多模态语言模型评估中控制刻板印象

我们提出了一种方法和设计了两个基准集，以衡量语言和视觉语言模型在有或没有刻板印象的情况下使用视觉信号的程度。我们的结果表明，多模型之间存在显着差异：最近基于 Transformer 的 FLAVA 似乎比早期基于 CNN 的模型（如 VisualBERT 和 LXMERT）更敏感于图像的选择，而且受刻板印象的影响较小。这种效果在控制型环境中比传统的评估中更容易觉察，我们不知道模型是依赖于刻板印象还是视觉信号。

Feb, 2023