Jun, 2024
Cambrian-1:全面开放、以视觉为中心的多模态LLMs研究
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs
TL;DR我们引入了Cambrian-1,一种以视觉为中心的多模态LLMs(MLLMs)系列,通过视觉指导调整作为接口,评估各种视觉表示,并提出了空间视觉聚合器(SVA)来进一步改进视觉定位,同时降低标记数量。此外,我们讨论了从公开可用的资源中策划高质量的视觉指导调整数据的重要性,并提供了模型权重、代码、支持工具、数据集以及详细的指导调整和评估方案,希望我们的发布能够激发和加速多模态系统和视觉表示学习的进步。