Vary：为大型视觉语言模型扩展视觉词汇

Dec, 2023

Vary：为大型视觉语言模型扩展视觉词汇

Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

Haoran Wei, Lingyu Kong, Jinyue Chen, Liang Zhao, Zheng Ge...

TL;DR通过提出一种名为 Vary 的新方法，可以在现代大型视觉 - 语言模型（LVLMs）中扩展视觉词汇表，从而实现更出色的细粒度感知和理解能力，特别适用于需要密集和细粒度视觉感知的特殊视觉任务，如文档级 OCR 或图表理解，而传统的视觉词汇表在非英语场景下可能会遇到效率低下或词汇表覆盖不全的问题。

Abstract

Modern large vision-language models (LVLMs) enjoy the same vision vocabulary -- CLIP, which can cover most common vision tasks. However, for some special vision task that needs dense and fine-grained vision perce

large vision-language models vary vision vocabulary ocr document parsing

发现论文，激发创造

小型语言模型与增强式视觉词汇的相遇

在这篇论文中，我们提出了一个小型的 Vary-toy 模型，它基于 Qwen-1.8B，通过引入改进的视觉词汇表，利用物体检测驱动的积极样本数据替换自然图像的负样本，使模型具备 Vary 的所有特征，并更充分地利用词汇网络的容量，从而能够高效地编码与自然物体对应的视觉信息。在实验中，Vary-toy 在 DocVQA 上可以达到 65.6% 的 ANLS，ChartQA 上可以达到 59.1% 的准确率，RefCOCO 上可以达到 88.1% 的准确率，而在 MMVet 上可达到 29% 的准确率。代码将在主页上公开提供。

Jan, 2024

视觉语言模型的可扩展性能分析

本文介绍了一种更具可伸缩性的方法，其根据从视觉 - 语言基准中提取的大量多样化特征，并测量它们与目标模型输出的相关性。通过该方法，作者确认了之前发现的 CLIP 表现类似于词袋模型，并且在名词和动词上表现更好；作者还发现 CLIP 在处理具体词语时会出现混淆。该框架可用于其他多模态模型和基准测试。

May, 2023

ViTamin：设计可扩展的视觉模型在视觉语言时代

该论文介绍了一种基于对比性语言 - 图像预训练框架的视觉模型评估协议，其中引入了一种新的视觉模型 ViTamin，该模型在零样本任务和模型规模扩展等方面表现出色。

Apr, 2024

多语言场景的渐进式视觉语言知识蒸馏和对齐框架

我们提出了一个概念简单但有效的多语言 CLIP 压缩框架，并训练了一个轻量级的多语言视觉 - 语言模型 DC-CLIP，用于中文和英文环境。在零样本图像分类方面的综合实验表明，相比于现有的类似参数规模的模型，DC-CLIP 在英文环境中取得了优越的性能，在中文环境中表现出竞争性能，即使使用较少的训练数据。我们设计的训练机制证明了其有效性。

Apr, 2024

通过级联视觉语言模型提升细粒度图像分类

本研究介绍了 CascadeVLM，一种创新的框架，通过有效地利用大型视觉 - 语言模型（LVLMs）内固有的精细知识，克服了以前基于 CLIP 的方法的限制。在各种细粒度图像数据集上的实验表明，CascadeVLM 在 Stanford Cars 数据集上显著优于现有模型，达到了令人印象深刻的 85.6% 的零样本准确性。性能增益分析验证了 LVLM 对于 CLIP 不确定的复杂图像的更准确预测，从而提高了整体准确性。我们的框架为有效和高效的细粒度图像分类提供了 VLM 与 LVLM 的整体集成方法。

May, 2024

CLIP 能为视觉语言任务带来多大的效益？

研究了在视觉与语言任务中使用大规模预训练模型 CLIP 作为视觉编码器以及其优势，通过在特定任务中微调和在预训练模型中与 V&L 相结合传递到下游任务，CLIP 显著优于现有的视觉编码器，并在多种视觉与语言任务中取得竞争或更好的结果，同时取得了 Visual Question Answering，Visual Entailment 和 V&L Navigation 等任务的新高峰。

Jul, 2021

从视觉语言模型中提炼，以改善视觉任务中的 OOD 泛化能力

Vision-Language to Vision-Align, Distill, Predict (VL2V-ADiP) is a proposed approach that aligns vision and language modalities to distill pre-trained features and superior generalization for state-of-the-art results in Domain Generalization using Vision-Language Models like CLIP.

Oct, 2023

通过视觉语言知识蒸馏实现在 CLIP 上的多模态生成

通过视觉 - 语言知识蒸馏 (VLKD) 增强双流 VLP 模型，使其具有多模态生成能力，实现开放式视觉问答和图像字幕等多模态生成任务的强零 - shot 性能。

Mar, 2022

BRAVE：拓宽视觉语言模型的视觉编码

通常，视觉语言模型（VLM）由视觉编码器（例如 CLIP）和解释编码特征以解决下游任务的语言模型（LM）组成。我们研究拓展 VLM 的视觉编码能力以应对其局限性，我们首先全面评估了几个具有不同归纳偏差的视觉编码器在解决 VLM 任务时的性能。我们观察到，没有一种单一的编码配置能在不同任务中始终达到最佳性能，具有不同偏差的编码器可以表现出令人惊讶的相似性。出于这个动机，我们提出了一种名为 BRAVE 的方法，该方法将多个冻结的编码器的特征整合成更多变的表示，并直接作为冻结的 LM 的输入。BRAVE 在广泛的字幕生成和视觉问答基准上实现了最先进的性能，并显著减轻了 VLM 的先前问题，同时需要比现有方法更少的可训练参数并具有更紧凑的表示。我们的结果突显了将不同的视觉偏差纳入 VLM 以获得更广泛和上下文化的视觉理解的潜力。

Apr, 2024

通用粗细视觉语言模型设计：万能任务大师

这篇研究论文介绍了 VistaLLM，一种能够处理视觉输入并统一各种视觉 - 语言任务的通用视觉系统，它利用指令调整的方法解决了在单一框架中集成分割、多图像输入和粗粒度任务的问题。通过使用说明的图像分词器提取压缩和精炼特征，以及使用梯度感知的自适应采样技术将二进制分割掩膜表示为序列，VistaLLM 显著提高了性能，并在广泛的任务中实现了领先的结果。

Dec, 2023