Mar, 2024

美餐之眼:多模态大型语言模型的分辨率混合适应

TL;DR基于图像分辨率的新型多模态大语言模型方法 (LLaVA-HR) 通过采用低分辨率和高分辨率图像特征的组合有效地改善了视觉识别的问题,在 11 个视觉 - 语言任务中表现出比现有模型更好的性能。