BriefGPT.xyz
Ask
alpha
关键词
high-resolution large multimodal models
搜索结果 - 1
ConvLLaVA:大型多模型视觉编码器的分层主干
通过使用 ConvNeXt 作为 LMM 的视觉编码器,ConvLLaVA 将高分辨率图像压缩为信息丰富的视觉特征,以避免生成过多的视觉令牌,并通过两个关键的优化进一步增强了 ConvLLaVA 的能力。
PDF
2 months ago
Prev
Next