ViTamin:设计可扩展的视觉模型在视觉语言时代
该研究提出了 ViLaM,一个统一的视觉 - 语言转换模型,通过集成基于大型语言模型的指令调整,能够在包括语言和视觉的一系列任务中最佳利用大型预训练语言模型的知识和推理能力,从而在医学图像分析等复杂视觉任务中取得了非凡的表现,并展示了其令人印象深刻的零样本学习能力,表明 ViLaM 在医学领域具有潜在的未来应用。
Nov, 2023
本文提出 MiniVLM,一个轻量、快速的视觉 - 语言模型,采用 two-stage efficient feature extractor 和 MiniLM 结构。MiniVLM 与大型模型相比,模型大小减少 73%,推理时间成本降低 94%,在多个视觉 - 语言任务上准确率保持 94-97%。希望 MiniVLM 可以用于边缘应用。
Dec, 2020
本文提出了一种高效适应单模预训练模型解决多模任务的方法 eP-ALM,在冻结大多数参数、仅训练一个线性投影层,前置仅一个可训练标记的情况下,显著优于基线,并在图像、视频和音频模态下跨越 VQA 和字幕的多个基准测试中取得了最佳性能。
Mar, 2023
本文提出了一种名为 ViLTA 的新方法,由两个组件组成,旨在进一步促进模型在图像和文本对之间学习细粒度表示,采用交叉蒸馏方法生成软标签以提高模型的稳健性,并利用上下文合成硬负样本来增加图像 - 文本匹配的难度,从而在各种视觉语言任务上取得更好的性能。大量的基准数据集实验证明了 ViLTA 的有效性和其在视觉语言预训练中的潜力。
Aug, 2023
这篇论文提出了一种名为 multi-grained vision language pre-training 的视觉语言联合预训练方法,它可以在多个粒度上学习视觉语言对齐。该论文还提出了一个名为 X$^2$-VLM 的预训练模型,它采用了模块化架构,可在图像文本任务和视频文本任务中实现最佳性能和模型规模间的良好平衡,并显示了其高可转移性,可以在任何语言或领域中使用。
Nov, 2022
本研究通过对 Vision Transformer 模型以及数据集的扩充和缩小,以及其误差率、数据和计算之间的关系进行表征,提高了模型的精度和训练效果,并最终成功训练出一个包含 20 亿参数的 ViT 模型,在 ImageNet 数据集上取得了 90.45% 的 top-1 精度。同时,ViT 模型能够在 few-shot transfer 任务中有良好表现,例如在每个类别只有 10 个示例的情况下,能够达到 84.86% 的 top-1 精度。
Jun, 2021
本文介绍了高效稳定地训练一个 22B 参数的 Vision Transformers(ViT-22B)的方法,并在结果模型上进行了大量实验。ViT-22B 展示了在视觉领域实现 LLM 般的扩展的潜力,并提供了部分实现的关键步骤。
Feb, 2023
本文针对 Vision-Language models 在处理 imbalanced dataset 时性能较差的问题,提出了加入 lightweight decoder 和 imbalanced 方法的改进方案,并在 ImageNet-LT iNaturalist18 和 Places-LT 三个数据集上进行了实验,证明改进后的 VLMs 相较于原来的 zero-shot classification 方法,在准确率上有显著提升。
Apr, 2023
基于大语言模型和视觉变换的视觉语言模型(VLMs)的增长兴趣,我们观察到在 VLMs 设计中往往存在未经支持的决策,这使得很难确定哪些选择能够提高模型性能,为了解决这个问题,我们进行了大量关于预训练模型、架构选择、数据和训练方法的实验,基于这些实验结果,我们开发了一个 8 亿参数的高效基础 VLM 模型
May, 2024
本研究介绍了 LEMON,一个大规模图像描述生成模型,探究了基于视觉 - 语言预训练的 transformer 模型在图像描述生成中的可扩展性,并使用大量数据和不同训练方法对其进行了实验和分析,取得了多个数据集上的最新成果。
Nov, 2021