Jan, 2025

LLaVA-Mini:高效图像和视频大型多模态模型,使用一个视觉令牌

TL;DR本文解决了现有大型多模态模型在处理视觉令牌时高计算开销的问题。通过引入模态预融合的方法,LLaVA-Mini在保留视觉信息的同时,将输入的视觉令牌高效压缩为一个令牌,从而在多个基准测试中表现优于传统模型。此创新使得模型在效率和速度上有显著提升,降低计算需求的同时仍能处理高分辨率图像和视频。