Aug, 2024

划分、征服与结合:一种无需训练的高分辨率图像感知框架用于多模态大语言模型

TL;DR本研究解决了多模态大语言模型在高分辨率图像理解中的不足,尤其是现有基准仅支持2K图像的问题。我们提出了DC$^2$框架,通过分割、生成文本描述及结合信息,显著提升模型在4K和8K图像上的感知能力。实验结果表明,该框架在多模态基准测试中相较于现有模型可实现6%-8%的准确率提升。