Apr, 2024

OmniFusion 技术报告

TL;DR基于预训练的大型语言模型和视觉模态的适配器,我们提出了一种全融合模型 OmniFusion,通过比较多种架构设计原则、图像编码方法和不同的语言模型,在 8 个视觉语言基准测试中取得了最高得分,提供了在不同领域中的高度详细答案,同时我们还提供了 Mistral-based OmniFusion 模型的开源解决方案链接。