NTSEBENCH：面向视觉语言模型的认知推理基准

Jul, 2024

NTSEBENCH：面向视觉语言模型的认知推理基准

NTSEBENCH: Cognitive Reasoning Benchmark for Vision Language Models

Pranshu Pandya, Agney S Talwarr, Vatsal Gupta, Tushar Kataria, Vivek Gupta...

TL;DR本研究提出了一个新的数据集NTSEBench，用于评估大型模型的认知多模式推理和问题解决能力。该数据集包含2,728个多项选择题，涵盖了来自印度全国范围的NTSE考试中的26个类别中的4,642张图片，包括文字和视觉一般才能问题，不依赖机械学习。我们使用最先进的LLM和VLM在数据集上建立了基准。为了便于开源和专有模型之间的比较，我们提出了四种不同的建模策略来处理数据集实例中的不同模态（文字和图片）。

Abstract

Cognitive textual and visual reasoning tasks, such as puzzles, series, and analogies, demand the ability to quickly reason, decipher, and evaluate patterns both textually and spatially. While LLMs and VLMs, through extensive training on large amounts of human-curated data, have attaine

发现论文，激发创造

通过合成任务数据评估多模态推理模型的能力

该论文通过高分辨率的文本图像生成技术，开发了一种针对多模态推理任务的评估数据生成框架，并使用此框架生成了一种复杂且缺乏数据集支持的任务的合成数据集，以进行性能测试。研究发现，在这项任务上，最先进的视觉问答模型的性能明显低于标准VQA任务。

Jun, 2023

增强类人多模态推理：一项新的具有挑战性的数据集和全面框架

多模态推理是实现类似人类智能的人工智能系统的关键组成部分，本文介绍了多模态链式思维（CoT）技术，并提出COACO-MMRD数据集，通过全面评估不同方法，提供了有价值的见解和创新技术，包括多跳跨模态注意力和句级对比学习，以增强图像和文本编码器的性能，通过广泛的实验证明了所提出数据集和技术的有效性，为推进多模态推理提供了新的视角。

Jul, 2023

测量和改进视觉-语言模型的思维链推理

通过LLM-Human-in-the-Loop流程和CURE基准，我们评估了现有的VLMs，并发现即使是表现最佳的模型也无法展示出强大的视觉推理能力和一致性，表明需要大量努力使VLMs能够像人类一样系统而一致地进行视觉推理。作为初步步骤，我们提出了一个两阶段训练框架，旨在提高VLMs的推理性能和一致性。第一阶段涉及使用由LLMs自动生成的逐步推理样本对VLMs进行监督微调。在第二阶段，我们进一步通过结合LLMs提供的反馈来增强训练过程，以产生高度一致和可靠的推理链。我们在推理性能和一致性方面经验上突出了我们框架的有效性。

Sep, 2023

大型语言模型作为自动标定器用于基准测试视觉语言模型

通过自动数据整理和评估，利用优秀的语言模型和视觉语言模型衡量对齐VLMs与人类智能的能力，我们提出了Auto-Bench作为一个灵活、可扩展和全面的评估benchmark。

Nov, 2023

大型视觉语言模型的图像推理与描述的认知评估基准

通过使用具有丰富语义的图像，我们提出了一种新的评估基准，评估大规模视觉语言模型（LVLMs）的高级认知能力。该基准定义了八种推理能力，并包括图像描述任务和视觉问答任务。我们对知名的LVLMs进行评估发现，LVLMs与人类之间的认知能力差距仍然很大。

Feb, 2024

NPHardEval4V: 多模态大型语言模型的动态推理基准

多模大型语言模型的推理能力研究及其在动态基准评估中的影响和不足。

Mar, 2024

EXAMS-V: 用于评估视觉语言模型的多学科多语言多模态考试基准

我们推出了EXAMS-V，一个新的多学科多模态多语言考试基准，用于评估视觉语言模型。它包含了20932个跨越自然科学、社会科学和其他各种学科的多项选择题，如宗教、美术、商务等。EXAMS-V包含了多种多模态特征，例如文本、图像、表格、图表、图解、地图、科学符号和方程式。这些问题来自于7个语系的11种语言。与现有的基准不同，EXAMS-V是通过收集各个国家的校园考试问题，采用多样化的教育体系进行精心策划的。这种独特的方法需要进行复杂的推理，涉及多种语言和地域特定的知识。解决数据集中的问题需要对文本和图像内容进行高级感知和联合推理。我们的评估结果表明，即使对于像GPT-4V和Gemini这样的先进视觉-文本模型，这也是一个具有挑战性的数据集；这凸显了数据集的内在复杂性以及作为未来基准的重要性。

Mar, 2024

MARVEL: 多维度的可视化评估和学习中的抽象和推理

多模态大型语言模型在抽象视觉推理方面呈现出近乎随机的性能，无法理解视觉特征和难以进行抽象推理。

Apr, 2024

视觉与语言模型中的多图像理解基准测试：感知、知识、推理和多跳推理

通过引入多图像关系基准（MIRB），我们评估了视觉语言模型（VLMs）在比较、分析和推理多个图像时的能力，并发现开源VLMs在单图像任务中接近GPT-4V的性能，但在多图像推理任务中存在显著的性能差距。我们的发现表明，即使是最先进的GPT-4V模型在我们的基准测试中也存在困难，强调了该领域进一步研究和开发的必要性。我们相信我们的MIRB可以作为开发下一代多模态模型的测试平台。

Jun, 2024

LogicVista: 视觉语境下的多模式LLM逻辑推理基准

我们提出了LogicVista，这是一个评估多模态大型语言模型在视觉环境中综合逻辑推理能力的评估基准。我们通过448个多项选择题综合评估了8个多模态大型语言模型在LogicVista上的逻辑认知能力，包括5个逻辑推理任务和9种不同的能力。

Jul, 2024