Aug, 2024

AdaptVision:多模态大语言模型中动态输入缩放的场景理解

TL;DR本研究针对多模态大语言模型在处理不同分辨率图像时面临的挑战,提出了AdaptVision模型。该模型通过动态调整视觉标记的数量来优化输入数据,从而提高对自然图像和文本图像的理解能力,显著提升了在视觉语言任务中的表现。