BRAVE：拓宽视觉语言模型的视觉编码

Apr, 2024

BRAVE：拓宽视觉语言模型的视觉编码

BRAVE: Broadening the visual encoding of vision-language models

Oğuzhan Fatih Kar, Alessio Tonioni, Petra Poklukar, Achin Kulshrestha, Amir Zamir...

TL;DR通常，视觉语言模型（VLM）由视觉编码器（例如 CLIP）和解释编码特征以解决下游任务的语言模型（LM）组成。我们研究拓展 VLM 的视觉编码能力以应对其局限性，我们首先全面评估了几个具有不同归纳偏差的视觉编码器在解决 VLM 任务时的性能。我们观察到，没有一种单一的编码配置能在不同任务中始终达到最佳性能，具有不同偏差的编码器可以表现出令人惊讶的相似性。出于这个动机，我们提出了一种名为 BRAVE 的方法，该方法将多个冻结的编码器的特征整合成更多变的表示，并直接作为冻结的 LM 的输入。BRAVE 在广泛的字幕生成和视觉问答基准上实现了最先进的性能，并显著减轻了 VLM 的先前问题，同时需要比现有方法更少的可训练参数并具有更紧凑的表示。我们的结果突显了将不同的视觉偏差纳入 VLM 以获得更广泛和上下文化的视觉理解的潜力。

Abstract

vision-language models (VLMs) are typically composed of a vision encoder, e.g. clip, and a language model (LM) that interprets the encoded features to solve downstream tasks. Despite remarkable progress, VLMs are

vision-language models vision encoders clip brave visual understanding

发现论文，激发创造

揭示无编码器的视觉 - 语言模型

在这项研究中，我们提出了一种简单而有效的训练方法，实现了没有视觉编码器的纯视觉语言模型，并通过桥接视觉语言表示和增强视觉识别能力的策略推出了 EVE 模型，它在多个视觉语言基准测试中显著优于采用类似容量的基于编码器的 VLMs。

Jun, 2024

MouSi：多视觉专家视觉语言模型

使用集成专家技术，从不同的视觉编码器中协同能力，通过融合网络统一处理来自不同视觉专家的输出，并解决图像编码器和预训练 LLMs 之间的差距，同时探索不同的位置编码方案以解决位置溢出和长度限制问题，实验证明，具有多个专家的 VLMs 在性能上表现出优势，并随着集成更多专家而显著提升表现。

Jan, 2024

通过视觉表示精炼视觉 - 语言模型中的偏差感知

通过使用简单的线性探测器，本研究探讨了如何从 CLIP 的嵌入中有效地提取特定任务的核心特征，结果显示 CLIP 的文本表示往往受到了有偏向的预训练数据中具有误导性的相关性的影响，实证结果表明相比文本嵌入，依赖于 CLIP 的视觉表示更为实用，可克服内置偏见。

May, 2024

ViTamin：设计可扩展的视觉模型在视觉语言时代

该论文介绍了一种基于对比性语言 - 图像预训练框架的视觉模型评估协议，其中引入了一种新的视觉模型 ViTamin，该模型在零样本任务和模型规模扩展等方面表现出色。

Apr, 2024

CLoVe: 对比视觉语言模型中的组合式语言编码

近年来，视觉与语言任务的性能显著提升。本文介绍了一个框架，极大地提高了现有模型对构成性语言的编码能力，在构成性基准测试中绝对改进了 10%，同时在标准的对象识别和检索基准测试中保持或提高了性能。

Feb, 2024

视觉任务的视觉语言模型综述

本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用，并总结了广泛采用的网络结构、预训练目标和下游任务，以及预训练和评估中广泛采用的数据集，并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。

Apr, 2023

图像胜过言辞：从因果中介视角理解和减轻视觉语言模型中的偏见

通过因果中介分析，我们提出了一个框架，来测量和映射在视觉 - 语言模型中生成和传播偏见的路径，结果显示图像特征是偏见的主要贡献者，对模型偏见的减轻起到重要作用，同时能保持性能稳定。

Jul, 2024

视觉语言建模简介

扩展到视觉领域的大型语言模型（LLMs）的应用将显著影响我们与技术的关系，但需要解决一些可靠性挑战。本文介绍了视觉语言模型（VLM）以及其工作原理、训练方法和评估方法，并讨论了将其扩展到视频领域的问题。

May, 2024

构建视觉 - 语言模型时的要点

基于大语言模型和视觉变换的视觉语言模型（VLMs）的增长兴趣，我们观察到在 VLMs 设计中往往存在未经支持的决策，这使得很难确定哪些选择能够提高模型性能，为了解决这个问题，我们进行了大量关于预训练模型、架构选择、数据和训练方法的实验，基于这些实验结果，我们开发了一个 8 亿参数的高效基础 VLM 模型

May, 2024

ViLaM: 具有增强的视觉定位和泛化能力的视觉语言模型

该研究提出了 ViLaM，一个统一的视觉 - 语言转换模型，通过集成基于大型语言模型的指令调整，能够在包括语言和视觉的一系列任务中最佳利用大型预训练语言模型的知识和推理能力，从而在医学图像分析等复杂视觉任务中取得了非凡的表现，并展示了其令人印象深刻的零样本学习能力，表明 ViLaM 在医学领域具有潜在的未来应用。

Nov, 2023