Mar, 2024
小语言模型的多模态助手全面重构
A Comprehensive Overhaul of Multimodal Assistant with Small Language
Models
TL;DR在本文中,我们研究了Multimodal Small Language Models(MSLMs)的设计方面,并提出了一种高效的多模态助手Mipha,旨在在视觉表示、语言模型和优化策略等各个方面产生协同效应。我们展示了在不增加训练数据量的情况下,我们的Mipha-3B在多个基准测试中表现优于最先进的大型MLLMs,尤其是LLaVA-1.5-13B。通过详细讨论,我们提供了开发强大的MSLMs以与MLLMs能力匹敌的见解和指南。