语言模型是否是解谜天才？算法解谜揭示多模态推理中的严峻挑战

Mar, 2024

语言模型是否是解谜天才？算法解谜揭示多模态推理中的严峻挑战

Are Language Models Puzzle Prodigies? Algorithmic Puzzles Unveil Serious Challenges in Multimodal Reasoning

Deepanway Ghosal, Vernon Toh Yan Han, Chia Yew Ken, Soujanya Poria

TL;DR这篇论文介绍了一项新颖的任务，即多模式拼图解决，其框架是视觉问题回答。我们提出了一个名为 AlgoPuzzleVQA 的新数据集，旨在挑战和评估多模态语言模型在解决需要视觉理解、语言理解和复杂算法推理的算法拼图中的能力。我们的研究表明，GPT4V 和 Gemini 等大型语言模型在拼图解决任务中表现有限，对于大量拼图的多选题回答设置，它们的性能接近随机。这些发现突出了整合视觉、语言和算法知识以解决复杂推理问题的挑战。

Abstract

This paper introduces the novel task of multimodal puzzle solving, framed within the context of visual question-answering. We present a new dataset, →

multimodal puzzle solving algopuzzlevqa visual question-answering algorithmic puzzles complex reasoning problems

发现论文，激发创造

PuzzleVQA: 通过抽象视觉模式诊断语言模型的多模态推理挑战

通过对抽象模式的基本概念进行评估，我们发现大型多模态模型在简单抽象模式上无法很好地泛化。通过对大型多模态模型的推理挑战进行系统分析，我们发现主要瓶颈在于较弱的视觉感知和归纳推理能力。

Mar, 2024

利用大语言模型的推理解谜：一项调查研究

对大型语言模型（LLMs）在解谜方面的能力进行探索，揭示了它们在人工智能中的潜力和挑战，这是对其在复杂推理任务中适用性的重要一步。通过将谜题分为基于规则和非规则两类的独特分类法，该调查通过各种方法论（包括提示技术、神经符号方法和微调）对 LLMs 进行了批判性评估。通过对相关数据集和基准的批判性回顾，我们评估了 LLMs 在复杂谜题情景中的表现，发现其在需要高级逻辑推理的领域与人类推理能力存在显著差距。该调查强调了需要新的策略和更丰富数据集来提升 LLMs 在解谜方面的熟练度，并为 AI 的逻辑推理和创造性问题解决的进展做出贡献。

Feb, 2024

CVPR2024 多模态算法推理任务 SMART-101 挑战解决方案

在本论文中，介绍了 HYU MLLAB KT 团队解决 SMART-101 CVPR 2024 Challenge：多模态算法推理任务。为了解决这个问题，我们提出了两个主要思路：利用大规模语言模型 (LLM) 的推理能力，将给定的视觉线索 (图像) 落实到文本模态中，并生成描述图像上下文的详细文本描述，然后将这些描述作为 LLM 的输入；为了确保不会忽视包含各种几何视觉模式的拼图图像的特性，我们利用目标检测算法来捕捉这些几何模式的视觉特征，并将这些信息作为 LLM 的输入。在拼图分割配置下，在测试集上实现了 29.5 的选项选择准确率 (Oacc)，在挑战集上实现了 27.1 的加权选项选择准确率 (WOSA)。

Jun, 2024

用大型语言模型解决和生成 NPR Sunday Puzzles

使用大型语言模型和 PUZZLEQA 数据集探索解决和生成 NPR Sunday Puzzle 游戏节目谜题的能力，并发现大型语言模型可以解决 PUZZLEQA 谜题，但在生成谜题方面表现不佳，需要未来的研究。

Jun, 2023

PuzzLing Machines: 从小数据学习的挑战

介绍了一个名为 PuzzLing Machines 的小数据学习挑战，该挑战包含来自语言奥林匹克的石碑难题，展示了目前包括最先进的深度神经网络模型在内的简单的统计算法无法完成这一挑战，这启发了新的 NLP 发展方向 -- 人类般思考的理解。

Apr, 2020

2023 ICCV 多模态算法推理任务 SMART-101 挑战的解决方案

本文介绍了我们在 SMART-101 挑战中解决多模态算法推理任务的解决方案。我们使用分而治之的方法，在数据层面上将所有问题分为八类，并利用 llama-2-chat 模型以零射方式直接生成每个问题的类别。此外，我们在 icon45 数据集上训练了一个 yolov7 模型用于目标检测，并将其与 OCR 方法结合起来识别和定位图像中的对象和文本。在模型层面上，我们使用 BLIP-2 模型并为图像编码器 VIT-G 添加了八个适配器，以自适应地提取不同问题类型的视觉特征。我们将预先构建的问题模板作为输入，使用 flan-t5-xxl 解码器生成答案。在拼图分割配置下，我们在验证集上获得了 26.5 的准确率得分，并在私有测试集上获得了 24.30 的准确率得分。

Oct, 2023

多语言视觉推理中缺少的内容及其修复方法

NLP 模型通过在视觉推理任务上的测试，评估了多语言、多模态方面的能力。通过分析模型的失败，提出了三个针对性干预措施，包括翻译 - 测试方法、视觉编程方法和利用图像字幕处理多模态问题。这些干预措施在零 - shot 设置下提高了 open model LLaVA 13.4% 的性能，并稍微改善了 GPT-4V 的性能。

Mar, 2024

大型语言模型的侧面思维谜题

我们设计了 BRAINTEASER 任务来测试模型展示横向思维和打破默认常识关联的能力，研究发现，现有的指导型与常识语言模型在横向思维方面与人类表现相比存在显著差距，特别是在对抗性格式的一致性上。

Oct, 2023

评估大型视觉语言模型在儿童数学奥林匹克竞赛上的表现

通过评估最先进的大型视觉和语言模型在儿童奥林匹克数学竞赛中的数学推理能力，我们填补了当前科学文献中缺少的有关联合视觉和文本推理的系统分析，结果显示现代大型视觉和语言模型在高年级的问题解决能力越来越强，但缺乏解答针对年幼儿童设计的问题的基础知识，而且它们的能力似乎基于与儿童的数学和逻辑技能不同的推理类型。

Jun, 2024

大型语言模型对计算机教育产生了重大影响，研究表明，这些模型能够比学生提供更好的解释，回答多项选择题高于平均水平，并生成能够通过入门课程中的自动化测试的代码。然而，仅仅转向视觉编程问题可能不足以解决在生成 AI 时代的学术诚信问题。

Nov, 2023