Mar, 2024

语言模型是否是解谜天才?算法解谜揭示多模态推理中的严峻挑战

TL;DR这篇论文介绍了一项新颖的任务,即多模式拼图解决,其框架是视觉问题回答。我们提出了一个名为 AlgoPuzzleVQA 的新数据集,旨在挑战和评估多模态语言模型在解决需要视觉理解、语言理解和复杂算法推理的算法拼图中的能力。我们的研究表明,GPT4V 和 Gemini 等大型语言模型在拼图解决任务中表现有限,对于大量拼图的多选题回答设置,它们的性能接近随机。这些发现突出了整合视觉、语言和算法知识以解决复杂推理问题的挑战。