Dec, 2020

MiniVLM: 一个更小更快的视觉语言模型

TL;DR本文提出 MiniVLM,一个轻量、快速的视觉 - 语言模型,采用 two-stage efficient feature extractor 和 MiniLM 结构。MiniVLM 与大型模型相比,模型大小减少 73%,推理时间成本降低 94%,在多个视觉 - 语言任务上准确率保持 94-97%。希望 MiniVLM 可以用于边缘应用。