Apr, 2024

Cantor: MLLM 的多模态思维链激发

TL;DR通过结合视觉环境获取和逻辑推理,本论文提出了一种名为 Cantor 的创新的多模态 CoT 框架,利用多模态大语言模型的认知能力解决复杂的视觉推理任务,该框架通过分析图像和问题实现对视觉输入的整合,利用大语言模型的高级认知功能生成更高级别的信息,提高了多模态 CoT 性能。