视觉语言模型的可扩展性能分析

May, 2023

Scalable Performance Analysis for Vision-Language Models

Santiago Castro, Oana Ignat, Rada Mihalcea

TL;DR本文介绍了一种更具可伸缩性的方法，其根据从视觉 - 语言基准中提取的大量多样化特征，并测量它们与目标模型输出的相关性。通过该方法，作者确认了之前发现的 CLIP 表现类似于词袋模型，并且在名词和动词上表现更好；作者还发现 CLIP 在处理具体词语时会出现混淆。该框架可用于其他多模态模型和基准测试。

Abstract

joint vision-language models have shown great performance over a diverse set of tasks. However, little is known about their limitations, as the high dimensional space learned by these models makes it difficult to identify semantic errors. Recent work has addressed this problem by desig

joint vision-language models probing task benchmarks vision-language benchmark clip multimodal models

发现论文，激发创造

通过视觉表示精炼视觉 - 语言模型中的偏差感知

通过使用简单的线性探测器，本研究探讨了如何从 CLIP 的嵌入中有效地提取特定任务的核心特征，结果显示 CLIP 的文本表示往往受到了有偏向的预训练数据中具有误导性的相关性的影响，实证结果表明相比文本嵌入，依赖于 CLIP 的视觉表示更为实用，可克服内置偏见。

May, 2024

CLIP 能为视觉语言任务带来多大的效益？

研究了在视觉与语言任务中使用大规模预训练模型 CLIP 作为视觉编码器以及其优势，通过在特定任务中微调和在预训练模型中与 V&L 相结合传递到下游任务，CLIP 显著优于现有的视觉编码器，并在多种视觉与语言任务中取得竞争或更好的结果，同时取得了 Visual Question Answering，Visual Entailment 和 V&L Navigation 等任务的新高峰。

Jul, 2021

利用大型语言模型演变可解释的视觉分类器

通过演化搜索算法和大语言模型的上下文学习能力，我们提出了一种能够发现解释性又具有辨识性的用于视觉识别的属性集合的新方法，并在五个细粒度的 iNaturalist 数据集上比最先进的基准方法提高了 18.4%，在两个 KikiBouba 数据集上提高了 22.2%。

Apr, 2024

CLoVe: 对比视觉语言模型中的组合式语言编码

近年来，视觉与语言任务的性能显著提升。本文介绍了一个框架，极大地提高了现有模型对构成性语言的编码能力，在构成性基准测试中绝对改进了 10%，同时在标准的对象识别和检索基准测试中保持或提高了性能。

Feb, 2024

多语言场景的渐进式视觉语言知识蒸馏和对齐框架

我们提出了一个概念简单但有效的多语言 CLIP 压缩框架，并训练了一个轻量级的多语言视觉 - 语言模型 DC-CLIP，用于中文和英文环境。在零样本图像分类方面的综合实验表明，相比于现有的类似参数规模的模型，DC-CLIP 在英文环境中取得了优越的性能，在中文环境中表现出竞争性能，即使使用较少的训练数据。我们设计的训练机制证明了其有效性。

Apr, 2024

语言辅助视觉模型调试器：一种无需样本的查找错误方法

通过语言辅助诊断方法，使用文本而非图像来诊断视觉模型中的错误，通过嵌入空间和共享分类器及跨模态迁移识别图像，验证了在水鸟和 CelebA 数据集上诊断现有视觉模型的能力。

Dec, 2023

RWKV-CLIP：一个稳健的视觉 - 语言表示学习器

通过扩展数据集和模型架构，该研究进一步探索了具有对比语言 - 图像预训练（CLIP）的视觉语言任务的性能，在处理来自网站的图像 - 文本对时。通过引入多样化的描述生成框架，该研究提出了 RWKV-CLIP，其中结合了变压器的有效并行训练和循环神经网络的高效推理。通过广泛的实验和多种模型规模和预训练数据集，证明了 RWKV-CLIP 是一个强大而有效的视觉语言表征学习器，在线性探测、零样例分类和零样例图像 - 文本检索等多个下游任务中实现了最先进的性能。

Jun, 2024

视觉 - 语言模型的跨模态概念学习和推理

使用大规模预训练的视觉语言模型（如 CLIP）及跨模态概念学习和推理（CCLI）方法，能够通过文本和图像之间的相关性自动学习图像的视觉概念，并构建区分性的图像表示，从而提高少样本学习和领域泛化等图像分类任务的性能。

Jul, 2023

视觉语言模型的零样本识别挑战：粒度和正确性

本文研究视觉与语言模型在零样本视觉识别任务中的应用难点，并针对对比视觉 - 语言模型（CLIP）等模型进行探讨。研究表明，模型更擅长识别细粒度概念，并且相似度评分并不能严格反映相应文本描述的准确性。作者提出了评价方法，以评估其学习性偏差问题，并发现相似的模糊描述很容易被模型混淆识别。本研究凸显了在开放环境下使用视觉与语言模型的挑战，并为进一步提高其零样本能力提出了方向建议。

Jun, 2023

CLiMB: 用于视觉语言任务的持续学习基准

本研究介绍了 CLiMB 基准测试，并提出了一种改进的视觉 - 语言 Transformer (ViLT) 模型，用于同时处理多模态任务和单模态任务的连续学习问题。通过实验发现，虽然常见的连续学习方法可以缓解多模态任务学习中的遗忘问题，但并不能实现跨任务的知识转移。该基准测试将有助于研究这个多模态场景下的新型连续学习算法。

Jun, 2022