CVPR2024 多模态算法推理任务 SMART-101 挑战解决方案

Jun, 2024

CVPR2024 多模态算法推理任务 SMART-101 挑战解决方案

Solution for SMART-101 Challenge of CVPR Multi-modal Algorithmic Reasoning Task 2024

Jinwoo Ahn, Junhyeok Park, Min-Jun Kim, Kang-Hyeon Kim, So-Yeong Sohn...

TL;DR在本论文中，介绍了 HYU MLLAB KT 团队解决 SMART-101 CVPR 2024 Challenge：多模态算法推理任务。为了解决这个问题，我们提出了两个主要思路：利用大规模语言模型 (LLM) 的推理能力，将给定的视觉线索 (图像) 落实到文本模态中，并生成描述图像上下文的详细文本描述，然后将这些描述作为 LLM 的输入；为了确保不会忽视包含各种几何视觉模式的拼图图像的特性，我们利用目标检测算法来捕捉这些几何模式的视觉特征，并将这些信息作为 LLM 的输入。在拼图分割配置下，在测试集上实现了 29.5 的选项选择准确率 (Oacc)，在挑战集上实现了 27.1 的加权选项选择准确率 (WOSA)。

Abstract

In this paper, the solution of HYU MLLAB KT Team to the Multimodal Algorithmic Reasoning Task: smart-101 cvpr 2024 challenge is presented. Beyond conventional visual question-answering problems, the SMART-101 challenge aims to achieve human-level multimodal understanding by tackling co

multimodal algorithmic reasoning task smart-101 cvpr 2024 challenge reasoning ability large-scale language model object detection algorithm

发现论文，激发创造

2023 ICCV 多模态算法推理任务 SMART-101 挑战的解决方案

本文介绍了我们在 SMART-101 挑战中解决多模态算法推理任务的解决方案。我们使用分而治之的方法，在数据层面上将所有问题分为八类，并利用 llama-2-chat 模型以零射方式直接生成每个问题的类别。此外，我们在 icon45 数据集上训练了一个 yolov7 模型用于目标检测，并将其与 OCR 方法结合起来识别和定位图像中的对象和文本。在模型层面上，我们使用 BLIP-2 模型并为图像编码器 VIT-G 添加了八个适配器，以自适应地提取不同问题类型的视觉特征。我们将预先构建的问题模板作为输入，使用 flan-t5-xxl 解码器生成答案。在拼图分割配置下，我们在验证集上获得了 26.5 的准确率得分，并在私有测试集上获得了 24.30 的准确率得分。

Oct, 2023

文本和图像预训练在多模态算法推理中的整合

我们提出了一个基于多模态算法推理的神经网络解决方案，用于解决专为 6-8 岁儿童设计的视觉语言难题，我们的模型基于两个预训练模型，分别从文本和图像中提取特征，并通过融合层和注意机制进行特征整合。实验结果表明，在智能挑战数据集的拼图分割样式下，我们提出的综合分类器具有卓越的性能，验证了多模态预训练表示的有效性。

Jun, 2024

智能视觉语言推理者

本研究探讨了视觉语言模型 (VLM) 作为推理器的能力，通过研究多模态人工智能，使用多模态算法推理任务 (SMART task) 中的抽象概念，以提高视觉 grounding，并通过合适的超参数和训练选择显著提升了推理技能。

Jul, 2024

语言模型是否是解谜天才？算法解谜揭示多模态推理中的严峻挑战

这篇论文介绍了一项新颖的任务，即多模式拼图解决，其框架是视觉问题回答。我们提出了一个名为 AlgoPuzzleVQA 的新数据集，旨在挑战和评估多模态语言模型在解决需要视觉理解、语言理解和复杂算法推理的算法拼图中的能力。我们的研究表明，GPT4V 和 Gemini 等大型语言模型在拼图解决任务中表现有限，对于大量拼图的多选题回答设置，它们的性能接近随机。这些发现突出了整合视觉、语言和算法知识以解决复杂推理问题的挑战。

Mar, 2024

LogicVista: 视觉语境下的多模式 LLM 逻辑推理基准

我们提出了 LogicVista，这是一个评估多模态大型语言模型在视觉环境中综合逻辑推理能力的评估基准。我们通过 448 个多项选择题综合评估了 8 个多模态大型语言模型在 LogicVista 上的逻辑认知能力，包括 5 个逻辑推理任务和 9 种不同的能力。

Jul, 2024

MM-PhyQA：多模态物理问题回答与多图 CoT 提示

利用现有模型对多步骤物理推理任务进行评估，通过引入多模态元素的高中级别物理问题的新数据集 MM-PhyQA，测试了包括 GPT-4 和 LLaVA 在内的多个大型语言模型的性能，并展示了基于 MI-CoT 提示技术的 LLaVA-1.5 13b 模型在测试集上的最佳结果，具有最高的 71.65% 准确率。

Apr, 2024

NTSEBENCH：面向视觉语言模型的认知推理基准

本研究提出了一个新的数据集 NTSEBench，用于评估大型模型的认知多模式推理和问题解决能力。该数据集包含 2,728 个多项选择题，涵盖了来自印度全国范围的 NTSE 考试中的 26 个类别中的 4,642 张图片，包括文字和视觉一般才能问题，不依赖机械学习。我们使用最先进的 LLM 和 VLM 在数据集上建立了基准。为了便于开源和专有模型之间的比较，我们提出了四种不同的建模策略来处理数据集实例中的不同模态（文字和图片）。

Jul, 2024

一种基于多模态上下文推理的条件推断方法，适用于联合文本和视觉线索

提出了一种名为 ModCR 的多模态上下文推理方法，结合文本信息和图像信息进行上下文推理，相较于之前的基于预训练视觉 - 语言模型的方法，ModCR 将给定的文本抽象语义和客观图像信息作为上下文信息，在预训练的语言模型中嵌入它们进行上下文推理，并通过引入可学习的对齐前缀将多视角语义对齐信息与语言和图形结合起来，使得该语言模型更适用于联合文本和视觉线索的多模态推理场景。

May, 2023

AmazUtah_NLP 在 SemEval-2024 任务 9 上的工作：一种用于常识违背推理的多项选择题回答系统

利用综合策略和先进的预训练模型，以及 Sentence 和 Word Puzzle 数据集作为训练数据，并结合幽默 / 笑话和 RiddleSense 数据集进行模型微调，实现了 92.5％的句子拼图子任务准确率和 80.2％的词语拼图子任务准确率。

May, 2024

视觉语言问答 (VLQA) 挑战赛

新方法和基础性性能的比较与现有机器学习方法中挑战的问题进行了讨论，最终提出了 Visuo-Linguistic Question Answering 作为计算机视觉和自然语言处理的基准测试集。

May, 2020