多模态大型语言模型的视觉问题分解

Sep, 2024

多模态大型语言模型的视觉问题分解

Visual Question Decomposition on Multimodal Large Language Models

Haowei Zhang, Jianzhe Liu, Zhen Han, Shuo Chen, Bailan He...

TL;DR本研究聚焦于多模态大型语言模型（MLLMs）在复杂问题回答中的问题分解能力。通过提出系统的评估框架和特定微调数据集DecoVQA+，我们发现现有的MLLMs在生成高质量子问题方面存在显著不足，并通过有效的微调流程显著提升了模型的分解能力和准确性。

Abstract

Question decomposition has emerged as an effective strategy for prompting Large Language Models (LLMs) to answer complex questions. However, while existing methods primarily focus on unimodal language models, the question decomposition capability of Multimodal Large Language Models (ML

发现论文，激发创造

MaXM：面向多语言视觉问答的模型

本文提出了可伸缩的解决方案，涉及多语言视觉问答（mVQA）的数据生成和建模，最终在13种语言中展现出强大性能，同时也创造了MaXM（一个在7种不同语言下的纯测试数据集），从而使得mVQA不仅限于英语，而是扩展到其他语言中。

Sep, 2022

探索零样本视觉问答的问题分解

通过研究和应用视觉-语言模型，本文提出了问题分解策略和模型驱动的选择性分解方法，以提高视觉问答任务的准确性和性能。

Oct, 2023

从图像到语言：对视觉问答（VQA）方法、挑战和机遇的关键分析

通过调查Visual Question Answering（视觉问题回答）领域的复杂性，本研究提供了对VQA数据集和方法的详细分类，展示了该领域的最新趋势、挑战和改进方向，并将VQA推广到多模态问答，探索与VQA相关的任务，并提出了一系列未来研究的开放性问题。

Nov, 2023

视觉问答指导：解锁面向特定领域视觉多任务的多模态大型语言模型

使用大型语言模型和多模态语言模型，我们开发了一种方法将特定领域的视觉和视觉-语言数据集转化为统一的问答格式，从而扩展了多模态语言模型用于特定领域任务，实验结果表明该方法在特定领域的视觉任务和视觉-语言任务上达到了高分数指标并保持了多任务的性能。

Feb, 2024

量化和减轻多模大型语言模型中的单模偏差：因果视角

近期，大型语言模型 (LLM) 的进展促进了多模态 LLM (MLLM) 的发展。虽然 MLLM 具有令人印象深刻的能力，但往往过于依赖单模态偏见（例如，语言偏见和视觉偏见），导致在复杂的多模态任务中回答错误。为了研究这个问题，我们提出了一个因果框架来解释视觉问答 (VQA) 问题中的偏见。在我们的框架中，我们设计了一个因果图来阐明 MLLMs 在 VQA 问题上的预测，并通过深入的因果分析评估偏见的因果效应。受到因果图的启发，我们引入了一个名为 MORE 的新数据集，包含了 12,000 个 VQA 实例。该数据集旨在挑战 MLLMs 的能力，需要进行多跳推理和克服单模态偏见。此外，我们提出了两种策略来减轻单模态偏见和增强 MLLMs 的推理能力，包括针对有限访问 MLLMs 的“分解-验证-回答” (DeVA) 框架以及通过微调改进开源 MLLMs。广泛的定量和定性实验为未来的研究提供了宝贵的见解。

Mar, 2024

高效多模态大型语言模型综述

在这份调研报告中，我们综述了当前高效多模态大语言模型（MLLMs）的研究状况，包括代表性的高效MLLM的时间线、高效结构和策略的研究现状以及应用领域。最后，我们讨论了目前高效MLLM研究的限制和有前途的未来方向。

May, 2024

基于问题分解的知识驱动和视觉推理解耦的知识图谱可视问答

我们研究了基于知识的视觉问答问题，通过将复杂问题替换为多个简单问题，从图像中提取更相关的信息来增强对图像的理解，并在三个著名的视觉问答数据集中实现了高达2%的准确率提升。

Jun, 2024

面向生成视觉问答的灵活评估

本研究解决了多模态大型语言模型在评估其多模态理解能力时的公平性和准确性问题。通过提出基于语义的评估方法，针对传统的视觉问答（VQA）评估的局限性，创建了评估VQA评估者的数据集（AVE），并设计了语义灵活的VQA评估者（SFVE），实验结果显示该评估方法明显优于现有的语义评估器。

Aug, 2024

重新审视多模态大型语言模型评估

本研究针对当前多模态大型语言模型（MLLM）评估中存在的数据集问题，如偏见和虚假关联，提出了一种新方法。我们首次使用改进的数据集评估多个MLLM，揭示了许多模型的潜在缺陷，并且我们的代码已整合于LAVIS框架中，便于今后模型的快速评估。

Aug, 2024

多模态大语言模型基准调查

本研究针对多模态大语言模型（MLLMs）在多个应用领域（如视觉问答和理解推理）的评价标准进行全面回顾，填补了现有文献在基准和评估方面的空白。该论文汇总了180个基准，探讨了评价方法的局限性，并指出评估应视为支持MLLMs发展的关键学科。研究结果将为未来MLLMs的评估与发展提供重要借鉴。

Aug, 2024