2023 ICCV 多模态算法推理任务 SMART-101 挑战的解决方案

Oct, 2023

2023 ICCV 多模态算法推理任务 SMART-101 挑战的解决方案

Solution for SMART-101 Challenge of ICCV Multi-modal Algorithmic Reasoning Task 2023

Xiangyu Wu, Yang Yang, Shengdong Xu, Yifeng Wu, Qingguo Chen...

TL;DR本文介绍了我们在 SMART-101 挑战中解决多模态算法推理任务的解决方案。我们使用分而治之的方法，在数据层面上将所有问题分为八类，并利用 llama-2-chat 模型以零射方式直接生成每个问题的类别。此外，我们在 icon45 数据集上训练了一个 yolov7 模型用于目标检测，并将其与 OCR 方法结合起来识别和定位图像中的对象和文本。在模型层面上，我们使用 BLIP-2 模型并为图像编码器 VIT-G 添加了八个适配器，以自适应地提取不同问题类型的视觉特征。我们将预先构建的问题模板作为输入，使用 flan-t5-xxl 解码器生成答案。在拼图分割配置下，我们在验证集上获得了 26.5 的准确率得分，并在私有测试集上获得了 24.30 的准确率得分。

Abstract

In this paper, we present our solution to a Multi-modal Algorithmic Reasoning Task: smart-101 challenge. Different from the traditional visual question-answering datasets, this challenge evaluates the abstraction, deduction, and generalization abilities of →

multi-modal algorithmic reasoning task smart-101 challenge visuolinguistic puzzles neural networks object detection

发现论文，激发创造

CVPR2024 多模态算法推理任务 SMART-101 挑战解决方案

在本论文中，介绍了 HYU MLLAB KT 团队解决 SMART-101 CVPR 2024 Challenge：多模态算法推理任务。为了解决这个问题，我们提出了两个主要思路：利用大规模语言模型 (LLM) 的推理能力，将给定的视觉线索 (图像) 落实到文本模态中，并生成描述图像上下文的详细文本描述，然后将这些描述作为 LLM 的输入；为了确保不会忽视包含各种几何视觉模式的拼图图像的特性，我们利用目标检测算法来捕捉这些几何模式的视觉特征，并将这些信息作为 LLM 的输入。在拼图分割配置下，在测试集上实现了 29.5 的选项选择准确率 (Oacc)，在挑战集上实现了 27.1 的加权选项选择准确率 (WOSA)。

Jun, 2024

文本和图像预训练在多模态算法推理中的整合

我们提出了一个基于多模态算法推理的神经网络解决方案，用于解决专为 6-8 岁儿童设计的视觉语言难题，我们的模型基于两个预训练模型，分别从文本和图像中提取特征，并通过融合层和注意机制进行特征整合。实验结果表明，在智能挑战数据集的拼图分割样式下，我们提出的综合分类器具有卓越的性能，验证了多模态预训练表示的有效性。

Jun, 2024

深度神经网络是否比二年级学生更聪明？

本文旨在研究神经网络的广泛性，提出 SMART 算法推理任务和关联的 SMART-101 数据集以评估神经网络在 6-8 岁儿童视觉语言谜题领域中的抽象、推理和概括能力，结果表明，神经网络在特定领域的表现合理，但不具有良好的广泛性，ChatGPT 虽然具有令人信服的推理能力，但答案常常是错误的。

Dec, 2022

AmazUtah_NLP 在 SemEval-2024 任务 9 上的工作：一种用于常识违背推理的多项选择题回答系统

利用综合策略和先进的预训练模型，以及 Sentence 和 Word Puzzle 数据集作为训练数据，并结合幽默 / 笑话和 RiddleSense 数据集进行模型微调，实现了 92.5％的句子拼图子任务准确率和 80.2％的词语拼图子任务准确率。

May, 2024

语言模型是否是解谜天才？算法解谜揭示多模态推理中的严峻挑战

这篇论文介绍了一项新颖的任务，即多模式拼图解决，其框架是视觉问题回答。我们提出了一个名为 AlgoPuzzleVQA 的新数据集，旨在挑战和评估多模态语言模型在解决需要视觉理解、语言理解和复杂算法推理的算法拼图中的能力。我们的研究表明，GPT4V 和 Gemini 等大型语言模型在拼图解决任务中表现有限，对于大量拼图的多选题回答设置，它们的性能接近随机。这些发现突出了整合视觉、语言和算法知识以解决复杂推理问题的挑战。

Mar, 2024

BAMO 在 SemEval-2024 任务 9 中的表现：BRAINTEASER: 一个违背常识的新任务

该研究使用语言模型如 BERT 和 RoBERTa Large 来解决 SemEval 2024 BRAINTEASER 任务，通过使用 Chain of Thought 和 zero-shot learning 的方法，最终在句子难题子任务上实现了 85% 的准确率。

Jun, 2024

PuzzleVQA: 通过抽象视觉模式诊断语言模型的多模态推理挑战

通过对抽象模式的基本概念进行评估，我们发现大型多模态模型在简单抽象模式上无法很好地泛化。通过对大型多模态模型的推理挑战进行系统分析，我们发现主要瓶颈在于较弱的视觉感知和归纳推理能力。

Mar, 2024

MM-PhyQA：多模态物理问题回答与多图 CoT 提示

利用现有模型对多步骤物理推理任务进行评估，通过引入多模态元素的高中级别物理问题的新数据集 MM-PhyQA，测试了包括 GPT-4 和 LLaVA 在内的多个大型语言模型的性能，并展示了基于 MI-CoT 提示技术的 LLaVA-1.5 13b 模型在测试集上的最佳结果，具有最高的 71.65% 准确率。

Apr, 2024

视觉语言问答 (VLQA) 挑战赛

新方法和基础性性能的比较与现有机器学习方法中挑战的问题进行了讨论，最终提出了 Visuo-Linguistic Question Answering 作为计算机视觉和自然语言处理的基准测试集。

May, 2020

面向 TextVQA 的结构化多模态关注力

本文提出了一种端到端的结构化多模态关注神经网络，通过使用图形表示和多模态图形注意网络设计来处理 TextVQA 中的可视文本问答问题，并通过全局 - 本地注意回答模块生成答案，其中使用了 OCR 和通用词汇识别技术。实验证明该模型在 TextVQA 数据集和 ST-VQA 数据集等两个任务中超过了 SoTA 模型。

Jun, 2020