Vary:为大型视觉语言模型扩展视觉词汇
在这篇论文中,我们提出了一个小型的 Vary-toy 模型,它基于 Qwen-1.8B,通过引入改进的视觉词汇表,利用物体检测驱动的积极样本数据替换自然图像的负样本,使模型具备 Vary 的所有特征,并更充分地利用词汇网络的容量,从而能够高效地编码与自然物体对应的视觉信息。在实验中,Vary-toy 在 DocVQA 上可以达到 65.6% 的 ANLS,ChartQA 上可以达到 59.1% 的准确率,RefCOCO 上可以达到 88.1% 的准确率,而在 MMVet 上可达到 29% 的准确率。代码将在主页上公开提供。
Jan, 2024
本文介绍了一种更具可伸缩性的方法,其根据从视觉 - 语言基准中提取的大量多样化特征,并测量它们与目标模型输出的相关性。通过该方法,作者确认了之前发现的 CLIP 表现类似于词袋模型,并且在名词和动词上表现更好;作者还发现 CLIP 在处理具体词语时会出现混淆。该框架可用于其他多模态模型和基准测试。
May, 2023
该论文介绍了一种基于对比性语言 - 图像预训练框架的视觉模型评估协议,其中引入了一种新的视觉模型 ViTamin,该模型在零样本任务和模型规模扩展等方面表现出色。
Apr, 2024
我们提出了一个概念简单但有效的多语言 CLIP 压缩框架,并训练了一个轻量级的多语言视觉 - 语言模型 DC-CLIP,用于中文和英文环境。在零样本图像分类方面的综合实验表明,相比于现有的类似参数规模的模型,DC-CLIP 在英文环境中取得了优越的性能,在中文环境中表现出竞争性能,即使使用较少的训练数据。我们设计的训练机制证明了其有效性。
Apr, 2024
本研究介绍了 CascadeVLM,一种创新的框架,通过有效地利用大型视觉 - 语言模型(LVLMs)内固有的精细知识,克服了以前基于 CLIP 的方法的限制。在各种细粒度图像数据集上的实验表明,CascadeVLM 在 Stanford Cars 数据集上显著优于现有模型,达到了令人印象深刻的 85.6% 的零样本准确性。性能增益分析验证了 LVLM 对于 CLIP 不确定的复杂图像的更准确预测,从而提高了整体准确性。我们的框架为有效和高效的细粒度图像分类提供了 VLM 与 LVLM 的整体集成方法。
May, 2024
研究了在视觉与语言任务中使用大规模预训练模型 CLIP 作为视觉编码器以及其优势,通过在特定任务中微调和在预训练模型中与 V&L 相结合传递到下游任务,CLIP 显著优于现有的视觉编码器,并在多种视觉与语言任务中取得竞争或更好的结果,同时取得了 Visual Question Answering,Visual Entailment 和 V&L Navigation 等任务的新高峰。
Jul, 2021
Vision-Language to Vision-Align, Distill, Predict (VL2V-ADiP) is a proposed approach that aligns vision and language modalities to distill pre-trained features and superior generalization for state-of-the-art results in Domain Generalization using Vision-Language Models like CLIP.
Oct, 2023
通过视觉 - 语言知识蒸馏 (VLKD) 增强双流 VLP 模型,使其具有多模态生成能力,实现开放式视觉问答和图像字幕等多模态生成任务的强零 - shot 性能。
Mar, 2022
通常,视觉语言模型(VLM)由视觉编码器(例如 CLIP)和解释编码特征以解决下游任务的语言模型(LM)组成。我们研究拓展 VLM 的视觉编码能力以应对其局限性,我们首先全面评估了几个具有不同归纳偏差的视觉编码器在解决 VLM 任务时的性能。我们观察到,没有一种单一的编码配置能在不同任务中始终达到最佳性能,具有不同偏差的编码器可以表现出令人惊讶的相似性。出于这个动机,我们提出了一种名为 BRAVE 的方法,该方法将多个冻结的编码器的特征整合成更多变的表示,并直接作为冻结的 LM 的输入。BRAVE 在广泛的字幕生成和视觉问答基准上实现了最先进的性能,并显著减轻了 VLM 的先前问题,同时需要比现有方法更少的可训练参数并具有更紧凑的表示。我们的结果突显了将不同的视觉偏差纳入 VLM 以获得更广泛和上下文化的视觉理解的潜力。
Apr, 2024
这篇研究论文介绍了 VistaLLM,一种能够处理视觉输入并统一各种视觉 - 语言任务的通用视觉系统,它利用指令调整的方法解决了在单一框架中集成分割、多图像输入和粗粒度任务的问题。通过使用说明的图像分词器提取压缩和精炼特征,以及使用梯度感知的自适应采样技术将二进制分割掩膜表示为序列,VistaLLM 显著提高了性能,并在广泛的任务中实现了领先的结果。
Dec, 2023