May, 2024

ConvLLaVA:大型多模型视觉编码器的分层主干

TL;DR通过使用 ConvNeXt 作为 LMM 的视觉编码器,ConvLLaVA 将高分辨率图像压缩为信息丰富的视觉特征,以避免生成过多的视觉令牌,并通过两个关键的优化进一步增强了 ConvLLaVA 的能力。