Sep, 2024

LongLLaVA:通过混合架构高效扩展多模态大语言模型至1000幅图像

TL;DR本研究针对多模态大语言模型(MLLMs)在视频理解、高分辨率图像理解及多模态代理中存在的长上下文能力不足问题,提出了一种新的混合模型架构,结合了Mamba和Transformer模块,并优化了数据构建与训练策略。研究表明,LongLLaVA能够在单个A100 80GB GPU上高效处理近1000幅图像,展现出良好的应用前景。