视觉问答指导：解锁面向特定领域视觉多任务的多模态大型语言模型

Feb, 2024

视觉问答指导：解锁面向特定领域视觉多任务的多模态大型语言模型

Visual Question Answering Instruction: Unlocking Multimodal Large Language Model To Domain-Specific Visual Multitasks

Jusung Lee, Sungguk Cha, Younghyun Lee, Cheoljong Yang

TL;DR使用大型语言模型和多模态语言模型，我们开发了一种方法将特定领域的视觉和视觉 - 语言数据集转化为统一的问答格式，从而扩展了多模态语言模型用于特定领域任务，实验结果表明该方法在特定领域的视觉任务和视觉 - 语言任务上达到了高分数指标并保持了多任务的性能。

Abstract

Having revolutionized natural language processing (NLP) applications, large language models (LLMs) are expanding into the realm of multimodal inputs. Owing to their ability to interpret images, multimodal llms (MLLMs) have been primarily used for vision-language tasks. Currently, MLLMs

large language models multimodal llms domain-specific visual tasks visual question answering instruction sllms

发现论文，激发创造

大型语言模型为文本丰富的 VQA 带来的优势

基于文本识别的图像视觉问答是一个跨模态任务，需要图像理解和文本识别。本文研究了基于 LLM 方法在解决此问题时的优势和瓶颈，并通过整合 OCR 模块和 MLLM 发现多数 MLLM 可以理解 OCR 信息，为训练保留 LLM 能力提供了启示。

Nov, 2023

基于大型语言模型的知识导向视觉问答中的模态感知集成

基于知识的视觉问答（KVQA）对于利用外部知识，如知识图谱（KGs）来回答视觉问题进行了广泛研究。本文提出了一种新颖的 LLMs 模态感知集成方法（MAIL），用于 KVQA，它巧妙地利用多模态知识进行图像理解和知识推理，并在两个基准数据集上的实验证明了 MAIL 的卓越性能。

Feb, 2024

FashionVQA：一种特定领域的视觉问答系统

该论文训练了一个视觉问答系统，使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统，该数据集使用模板自动生成，模型的最高准确性超过了人类专家水平。

Aug, 2022

基于深度学习的视觉 - 语言任务统一框架

通过引入 pool-adapter 模块，保留视觉嵌入的位置信息，我们的 InfMLLM 方法在图像描述、视觉问题回答和视觉定位等任务中达到了与最新的多模态大语言模型相当或超越的性能。

Nov, 2023

探索视觉 - 语言模型的边界：当前方法和未来方向的综述

综述了大语言模型与视觉语言模型的最新进展，分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性，并提出未来研究的潜在方向。

Feb, 2024

VisionLLM v2：一种适用于数百种视觉语言任务的端到端通用多模态大语言模型

VisionLLM v2 是一种端到端的多模态大型模型，它在一个框架中统一了视觉感知、理解和生成。它通过一种名为 “超级链接” 的信息传输机制连接了模型与特定任务解码器，以实现灵活的任务信息传输和梯度反馈，并在多任务场景中解决训练冲突，并通过不同的用户提示实现对多种视觉语言任务的端到端联合训练和泛化，达到与特定任务模型相当的性能。

Jun, 2024

多模态大型语言模型的（R）演进：一项调查

连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发，目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs，分析了它们的体系结构选择、多模态对齐策略和训练技术。同时，还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外，我们还编译和描述了训练数据集和评估基准，并在性能和计算要求方面对现有模型进行了比较。总体而言，本调查提供了当前最新技术的全面概述，为未来的 MLLMs 奠定了基础。

Feb, 2024

多模态大型语言模型中信息存储和传递的理解

理解变压器模型中的信息存储和传输机制对推进模型理解的进展至关重要，最近的研究关注了大型语言模型（LLMs）中的这些机制，揭示了信息存储在模型参数中的方式以及特定提示下信息如何流入和流出这些参数，然而，这些研究尚未扩展到多模态大型语言模型（MLLMs）。

Jun, 2024

量化和减轻多模大型语言模型中的单模偏差：因果视角

近期，大型语言模型 (LLM) 的进展促进了多模态 LLM (MLLM) 的发展。虽然 MLLM 具有令人印象深刻的能力，但往往过于依赖单模态偏见（例如，语言偏见和视觉偏见），导致在复杂的多模态任务中回答错误。为了研究这个问题，我们提出了一个因果框架来解释视觉问答 (VQA) 问题中的偏见。在我们的框架中，我们设计了一个因果图来阐明 MLLMs 在 VQA 问题上的预测，并通过深入的因果分析评估偏见的因果效应。受到因果图的启发，我们引入了一个名为 MORE 的新数据集，包含了 12,000 个 VQA 实例。该数据集旨在挑战 MLLMs 的能力，需要进行多跳推理和克服单模态偏见。此外，我们提出了两种策略来减轻单模态偏见和增强 MLLMs 的推理能力，包括针对有限访问 MLLMs 的 “分解 - 验证 - 回答” (DeVA) 框架以及通过微调改进开源 MLLMs。广泛的定量和定性实验为未来的研究提供了宝贵的见解。

Mar, 2024

视觉问答的多模态潜在交互网络

该研究提出了一种多模态潜在交互模块（MLI），用于学习图像问题答案中潜在的视觉和语言信息之间的跨模态关系，从而最大化地汇总了两种信息来源，并且与预训练语言模型 BERT 结合可以显着提高性能，达到了竞争性的结果。

Aug, 2019