ViTamin：设计可扩展的视觉模型在视觉语言时代

CVPRApr, 2024

ViTamin：设计可扩展的视觉模型在视觉语言时代

ViTamin: Designing Scalable Vision Models in the Vision-Language Era

Jienneg Chen, Qihang Yu, Xiaohui Shen, Alan Yuille, Liang-Chieh Chen

TL;DR该论文介绍了一种基于对比性语言 - 图像预训练框架的视觉模型评估协议，其中引入了一种新的视觉模型 ViTamin，该模型在零样本任务和模型规模扩展等方面表现出色。

Abstract

Recent breakthroughs in vision-language models (vlms) start a new page in the vision community. The vlms provide stronger and more general

vision-language models vlms vision transformers vitamin imagenet

发现论文，激发创造

ViLaM: 具有增强的视觉定位和泛化能力的视觉语言模型

该研究提出了 ViLaM，一个统一的视觉 - 语言转换模型，通过集成基于大型语言模型的指令调整，能够在包括语言和视觉的一系列任务中最佳利用大型预训练语言模型的知识和推理能力，从而在医学图像分析等复杂视觉任务中取得了非凡的表现，并展示了其令人印象深刻的零样本学习能力，表明 ViLaM 在医学领域具有潜在的未来应用。

Nov, 2023

MiniVLM: 一个更小更快的视觉语言模型

本文提出 MiniVLM，一个轻量、快速的视觉 - 语言模型，采用 two-stage efficient feature extractor 和 MiniLM 结构。MiniVLM 与大型模型相比，模型大小减少 73％，推理时间成本降低 94％，在多个视觉 - 语言任务上准确率保持 94-97％。希望 MiniVLM 可以用于边缘应用。

Dec, 2020

eP-ALM: 语言模型的高效感知增强

本文提出了一种高效适应单模预训练模型解决多模任务的方法 eP-ALM，在冻结大多数参数、仅训练一个线性投影层，前置仅一个可训练标记的情况下，显著优于基线，并在图像、视频和音频模态下跨越 VQA 和字幕的多个基准测试中取得了最佳性能。

Mar, 2023

ViLTA：通过文本增强增强视觉语言预训练

本文提出了一种名为 ViLTA 的新方法，由两个组件组成，旨在进一步促进模型在图像和文本对之间学习细粒度表示，采用交叉蒸馏方法生成软标签以提高模型的稳健性，并利用上下文合成硬负样本来增加图像 - 文本匹配的难度，从而在各种视觉语言任务上取得更好的性能。大量的基准数据集实验证明了 ViLTA 的有效性和其在视觉语言预训练中的潜力。

Aug, 2023

X$^2$-VLM：图像和语言任务的多功能预训练模型

这篇论文提出了一种名为 multi-grained vision language pre-training 的视觉语言联合预训练方法，它可以在多个粒度上学习视觉语言对齐。该论文还提出了一个名为 X$^2$-VLM 的预训练模型，它采用了模块化架构，可在图像文本任务和视频文本任务中实现最佳性能和模型规模间的良好平衡，并显示了其高可转移性，可以在任何语言或领域中使用。

Nov, 2022

可扩展的视觉 Transformer

本研究通过对 Vision Transformer 模型以及数据集的扩充和缩小，以及其误差率、数据和计算之间的关系进行表征，提高了模型的精度和训练效果，并最终成功训练出一个包含 20 亿参数的 ViT 模型，在 ImageNet 数据集上取得了 90.45% 的 top-1 精度。同时，ViT 模型能够在 few-shot transfer 任务中有良好表现，例如在每个类别只有 10 个示例的情况下，能够达到 84.86% 的 top-1 精度。

Jun, 2021

将视觉 Transformer 扩展至 220 亿参数

本文介绍了高效稳定地训练一个 22B 参数的 Vision Transformers（ViT-22B）的方法，并在结果模型上进行了大量实验。ViT-22B 展示了在视觉领域实现 LLM 般的扩展的潜力，并提供了部分实现的关键步骤。

Feb, 2023

探索用于不平衡学习的视觉 - 语言模型

本文针对 Vision-Language models 在处理 imbalanced dataset 时性能较差的问题，提出了加入 lightweight decoder 和 imbalanced 方法的改进方案，并在 ImageNet-LT iNaturalist18 和 Places-LT 三个数据集上进行了实验，证明改进后的 VLMs 相较于原来的 zero-shot classification 方法，在准确率上有显著提升。

Apr, 2023

构建视觉 - 语言模型时的要点

基于大语言模型和视觉变换的视觉语言模型（VLMs）的增长兴趣，我们观察到在 VLMs 设计中往往存在未经支持的决策，这使得很难确定哪些选择能够提高模型性能，为了解决这个问题，我们进行了大量关于预训练模型、架构选择、数据和训练方法的实验，基于这些实验结果，我们开发了一个 8 亿参数的高效基础 VLM 模型

May, 2024

图像字幕生成的视觉语言预训练规模化提升

本研究介绍了 LEMON，一个大规模图像描述生成模型，探究了基于视觉 - 语言预训练的 transformer 模型在图像描述生成中的可扩展性，并使用大量数据和不同训练方法对其进行了实验和分析，取得了多个数据集上的最新成果。

Nov, 2021