Jan, 2024

CoCoT: 大型多模型多图像输入的对比思维链接引导

TL;DR当探索人工通用智能(AGI)的发展时,大型多模态模型(LMMs)在处理多个图像输入的信息时面临两个问题:细粒度感知的缺乏和融合多个图像的倾向。我们首先广泛研究了 LMMs 在处理多个输入图像时感知细粒度视觉细节的能力。研究集中在两个方面:首先,图像与图像匹配(评估 LMMs 是否能够有效推理和配对相关图像),其次,多图像与文本匹配(评估 LMMs 是否能够准确捕捉和总结详细的图像信息)。我们对一系列开源和闭源的大型模型进行评估,包括 GPT-4V,Gemini,OpenFlamingo 和 MMICL。为了增强模型性能,我们还基于多输入多模态模型开发了一种对比的思维链(CoCoT)启发方法。该方法要求 LMMs 比较多个图像输入的相似性和差异性,然后根据确定的相似性和差异性指导模型回答关于多图像输入的详细问题。我们的实验结果展示了 CoCoT 在增强大型多模态模型的多图像理解能力方面的熟练度。