Feb, 2024

单幅图像中的一切:大型多模态模型是图像学习器

TL;DR该论文介绍了一种新的上下文学习机制 ——In-Image Learning(I²L),将示范示例、视觉线索和指令结合到一张图像中,以增强 GPT-4V 的能力,并通过图像处理、理解和推理能力来整合所有信息,从而避免了复杂图像的文本描述不准确、位置示范示例灵活、输入负担减少、避免多张图像和冗长文本的输入限制等优势。通过引入自动策略选择适当的 ICL 方法,我们进一步整合了不同 ICL 方法的优势,对 MathVista 和 Hallusionbench 进行了实验,测试了 I²L 在复杂多模态推理任务中的有效性以及对语言幻觉和视觉错觉的缓解作用,并探讨了图像分辨率、示范示例数量和位置对 I²L 有效性的影响。我们的代码公开可用于此 https 网址。