MG-LLaVA:面向多粒度视觉指导调整
通过引入区域级别的视觉编码器,本文提出了一种增强图像教学调整功能的多模态大型语言模型(MLLMs),以实现更细粒度的模态交叉对齐,并设计了多种数据生成策略构建了图像-区域-语言指令数据集,实验结果表明该模型的卓越性能。
Aug, 2023
通过对LLaVA进行简单修改,采用CLIP-ViT-L-336px与MLP投影以及添加面向学术任务的VQA数据,我们建立了更强的基线模型,在11个基准测试中达到了最新的成果。
Oct, 2023
该研究论文提出了一种统一的大规模视觉语言模型(LVLM),通过在语言特征空间中统一视觉表示,学习多模态交互,从而在图像和视频基准任务上取得了卓越性能。
Nov, 2023
本文介绍了一种针对大型视觉语言模型 (LVLMs) 的训练策略 MoE-tuning,通过构建一个具有巨大数量参数但恒定计算成本的稀疏模型,有效解决多模态学习和模型稀疏性带来的性能退化问题。此外,本文还提出了基于 MoE 的稀疏 LVLM 架构 MoE-LLaVA,通过在部署过程中仅激活前k个专家,使剩余的专家处于非活跃状态。实验证明,MoE-LLaVA 在视觉理解方面具有出色的能力,并且在模型输出的对象幻象基准测试中超越了 LLaVA-1.5-13B,在各种视觉理解数据集上表现可与 LLaVA-1.5-7B 相媲美。通过 MoE-LLaVA,我们旨在为稀疏 LVLMs 建立基准,并为未来开发更高效和有效的多模态学习系统提供有价值的见解。
Jan, 2024
最近在指导的大型视觉语言模型方面取得的进展,使得模型能够轻松生成高层次的基于图像的解释。然而,我们的工作揭示了这些模型在细粒度的视觉分类方面的缺陷,并且我们提出了一个多粒度属性为中心的评估基准,用于评估大型视觉语言模型的细粒度视觉理解能力并提供显著改进的可解释性。
Feb, 2024
基于图像分辨率的新型多模态大语言模型方法(LLaVA-HR)通过采用低分辨率和高分辨率图像特征的组合有效地改善了视觉识别的问题,在11个视觉-语言任务中表现出比现有模型更好的性能。
Mar, 2024
我们引入了密集连接器——一个简单、有效且即插即用的视觉语言连接器,通过利用多层视觉特征显著增强现有的多模态大型语言模型(MLLMs),并且在仅依靠图像训练的情况下,展示了在视频理解方面的显著零样本能力。
May, 2024
本研究解决了在多模态大语言模型中捕捉复杂图像细节的挑战,指出现有方法存在冗余和计算负担。通过提出一种多层特征融合器,动态提取浅层特征中的细节并与深层特征对齐,显著提高了视觉表示效果及基准性能,为细粒度视觉语言理解提供了更灵活且轻量级的解决方案。
Oct, 2024
本研究针对多模态大语言模型(MLLM)在资源受限环境中的应用问题,提出了一种新的框架LLaVA-KD,通过知识转移来提升小规模多模态大语言模型(s-MLLM)的性能。研究,通过引入多模态蒸馏和关系蒸馏,结合三阶段训练方案,显著提高了s-MLLM的效能而不改变其架构,验证了各个组件的有效性。
Oct, 2024