Jan, 2025

LLaVA-Octopus:解锁基于指令的自适应投影融合用于视频理解

TL;DR本文提出了LLaVA-Octopus,一种新型的视频多模态大型语言模型,旨在解决不同视觉投影器在特定任务中的特征权重分配问题。通过根据用户指令动态调整特征权重,LLaVA-Octopus能有效融合各个投影器的优点,显著提升多模态任务的性能,特别是在多模态理解、视觉问答和视频理解等领域展现出广泛的应用潜力。