May, 2024

多模态大型语言模型中的图像思考激励对于视觉推理优化的影响

TL;DR近期在 Chain-of-Thought (CoT) 和相关基于理性的研究中,显着提升了大规模语言模型(LLM)在复杂推理任务中的性能。随着多模态大规模语言模型(MLLM)的发展,增强其解决复杂多模态推理问题的能力是至关重要的。然而,将多模态理性融入 CoT 还没有得到彻底的研究。本文提出了 Image-of-Thought(IoT)提示方法,帮助 MLLM 逐步提取视觉理性。具体而言,IoT 提示可以根据输入图像和问题自动设计关键的视觉信息提取操作。视觉信息的每个步骤都可以确定支持复杂视觉推理问题答案的特定视觉理性。除了文本 CoT,IoT 同时利用视觉和文本合理有助于 MLLM 理解复杂多模态信息。IoT 提示在不同的 MLLM 中改善了各种视觉理解任务的零 - shot 视觉推理性能。此外,IoT 提示生成的逐步视觉特征解释阐明了视觉推理过程,有助于分析大规模多模态模型的认知过程。