Dec, 2023

VILA:关于视觉语言模型的预训练

TL;DR通过逐步可控的比较,我们研究了增强大语言模型 (LLM) 向视觉语言模型 (VLM) 扩展的 VLM 预训练过程的设计选择。我们通过增强的预训练方法构建了 VILA,一系列视觉语言模型,无需额外的修饰即可在主要基准测试中始终优于当前最先进的模型。多模态预训练还有助于揭示 VILA 的吸引人属性,包括多图像推理、增强的上下文学习和更好的世界知识。