May, 2024

Libra: 基于大型语言模型构建解耦视觉系统

TL;DR这项研究介绍了Libra,这是一个拥有解耦视觉系统的大型语言模型原型。Libra通过离散的自回归建模,训练视觉和语言输入数据,实现跨模态交互。实验证明,Libra的专门设计在图像到文本场景中提供了一个强大的MLLM基准,仅使用5000万个训练数据,为未来的多模态基础模型提供了新的视角。