ConvLLaVA：大型多模型视觉编码器的分层主干

May, 2024

ConvLLaVA：大型多模型视觉编码器的分层主干

ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models

Chunjiang Ge, Sijie Cheng, Ziming Wang, Jiale Yuan, Yuan Gao...

TL;DR通过使用 ConvNeXt 作为 LMM 的视觉编码器，ConvLLaVA 将高分辨率图像压缩为信息丰富的视觉特征，以避免生成过多的视觉令牌，并通过两个关键的优化进一步增强了 ConvLLaVA 的能力。

Abstract

high-resolution large multimodal models (LMMs) encounter the challenges of excessive visual tokens and quadratic visual complexity. Current high-resolution LMMs address the quadratic complexity while still genera

high-resolution large multimodal models convllava visual tokens convnext redundancy

发现论文，激发创造

MG-LLaVA：面向多粒度视觉指导调整

采用多种视觉特征与语言模型相结合的创新方法 MG-LLaVA，在感知任务中提供了出色的表现，并且超越了相似参数规模的现有模型，具备出色的目标识别能力。

Jun, 2024

LLaVA-UHD: 一种感知任何纵横比和高分辨率图像的 LMM

LLaVA-UHD 是一种大型多模态模型，其中包括图像模块化策略、压缩模块和空间模式，它可以高效地感知任何宽高比和高分辨率的图像，并在多个基准测试中优于其他模型。

Mar, 2024

VoCo-LLaMA：面向大型语言模型的视觉压缩

基于 Vision-Language Models 的 VoCo-LLaMA 方法通过引入 Vision Compression tokens 和利用 attention distillation，实现了视觉压缩并提高推理效率，能够理解时间相关性，在多模态应用中具有广泛的潜力。

Jun, 2024

LLaVolta: 通过分阶段视觉上下文压缩实现高效多模态模型

通过对视觉标记和训练效率的分析研究，提出了一种名为 Visual Context Compressor 的方法，通过压缩视觉标记来提高多模式模型的训练效率，最终实现在图像语言理解和视频语言理解领域性能的提升和训练成本的降低。

Jun, 2024

TinyLLaVA：一个小规模大型多模态模型的框架

通过 TinyLLaVA 框架的研究与实验，我们发现数据的质量、训练配方和模型选择对于设计和分析小规模的大型多模型模型非常重要；通过将更好的数据质量和更好的训练配方相结合，我们发现较小规模的模型可以与更大规模的模型达到相当的性能，这些发现可为未来的研究提供基准。

Feb, 2024

LLaVA-PruMerge: 高效大型多模态模型的自适应令牌减少

通过减少视觉标记并合并相关标记，我们提出了一种自适应的视觉标记压缩方法 PruMerge，可以显著减少可视标记的数量并保持相似的模型性能。

Mar, 2024

通过视觉指导优化的改进基准模型

通过对 LLaVA 进行简单修改，采用 CLIP-ViT-L-336px 与 MLP 投影以及添加面向学术任务的 VQA 数据，我们建立了更强的基线模型，在 11 个基准测试中达到了最新的成果。

Oct, 2023

超高像素大型多模态模型

高分辨率是大型多模式模型（LMMs）的基础，本论文提出了一种新的框架和优化策略，通过混合适配器从全局视图中提取上下文信息，并引入可学习的查询嵌入来减少图像标记，同时通过相似性选择器选择用户问题的关键标记，实现更好的性能表现。此外，通过交替训练的方式平衡学习全局和局部方面，并引入高要求图像细节的数据集来增强局部压缩层的训练，提出的方法在各项基准测试中表现出优异性能。

Jun, 2024

MoVA: 将多模态背景下的视觉专家混合进行调整

通过将任务特定视觉专家与粗到细的机制自适应地路由和融合，MoVA 可在各种具有挑战性的多模态基准测试中显著提高性能。

Apr, 2024

MouSi：多视觉专家视觉语言模型

使用集成专家技术，从不同的视觉编码器中协同能力，通过融合网络统一处理来自不同视觉专家的输出，并解决图像编码器和预训练 LLMs 之间的差距，同时探索不同的位置编码方案以解决位置溢出和长度限制问题，实验证明，具有多个专家的 VLMs 在性能上表现出优势，并随着集成更多专家而显著提升表现。

Jan, 2024