May, 2024

MMCTAgent:复杂视觉推理的多模态批判性思维代理框架

TL;DR这篇论文介绍了 MMCTAgent,这是一个新颖的多模态批判性思维代理框架,旨在解决当前 MLLM 在复杂视觉推理任务中的固有限制。通过从人类认知过程和批判性思维中获得灵感,MMCTAgent 迭代地分析多模态信息,分解查询,计划策略,并动态发展其推理能力。此外,MMCTAgent 还融入了验证最终答案和自我反思的批判性思维元素,通过定义基于视觉的评论员并识别任务特定的评估标准,从而增强其决策能力。通过在各种图像和视频理解基准上进行严格评估,我们证明 MMCTAgent(有和无评论员)优于基础 MLLM 和其他工具增强的流水线。