May, 2024

VoCoT: 大型多模态模型中释放基于视觉基础的多步推理

TL;DR该研究论文提出了 VoCoT,一种适合于大型多模态模型推理的多步骤可视化物体为中心的连贯思维推理框架,通过在 LMMs 中引入 VoCoT,实现了在长期生成过程中跨模态信息的有效连接,并在各种场景中表现出优秀的性能,超过了需要复杂推理的 SOTA 模型,包括 GPT-4V。