Dec, 2020

MiniVLM: 一个更小更快的视觉语言模型

TL;DR本文提出MiniVLM,一个轻量、快速的视觉-语言模型,采用two-stage efficient feature extractor和MiniLM结构。MiniVLM与大型模型相比,模型大小减少73%,推理时间成本降低94%,在多个视觉-语言任务上准确率保持94-97%。希望MiniVLM可以用于边缘应用。