如何弥合模态之间的差距：对多模态大语言模型的全面调查

Nov, 2023

如何弥合模态之间的差距：对多模态大语言模型的全面调查

How to Bridge the Gap between Modalities: A Comprehensive Survey on Multimodal Large Language Model

Shezheng Song, Xiaopeng Li, Shasha Li

TL;DR本综述论文探讨了多模态大型语言模型（MLLMs），该模型整合了类似于 GPT-4 的大型语言模型（LLMs），用于处理文本和视觉等多模态数据。MLLMs 展示了生成图像叙述和回答基于图像的问题等能力，缩小了人与计算机之间的差距，并暗示了通向人工智能的潜在途径。然而，MLLMs 仍面临处理多模态语义差距的挑战，可能导致错误生成，对社会造成潜在风险。选择适当的模态对齐方法至关重要，因为不恰当的方法可能需要更多参数，并且性能改进有限。该论文旨在探讨 LLMs 的模态对齐方法及其现有能力。实施模态对齐使得 LLMs 能够解决环境问题并提高可访问性。研究调查了 MLLMs 中现有的模态对齐方法，分为四个组：（1）多模态转换器将数据转换为 LLMs 可以理解的格式；（2）多模态感知器改善 LLMs 对不同类型数据的感知能力；（3）工具辅助将数据转换为一种常见格式，通常是文本；以及（4）数据驱动方法教导 LLMs 理解数据集中特定类型的数据。这个领域仍处于探索和试验阶段，我们将组织和更新各种现有的多模态信息对齐研究方法。

Abstract

This review paper explores multimodal large language models (MLLMs), which integrate Large Language Models (llms) like GPT-4 to handle multimodal

multimodal large language models modality alignment methods llms multimodal data artificial general intelligence

发现论文，激发创造

多模态大型语言和视觉模型综述

通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾，本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用，以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析了伦理考虑和挑战，并讨论了开源和专有模型在 AI 研究中的影响。通过这个综述，我们揭示了 MM-LLM 在各种应用中的转型潜力。

Mar, 2024

多模态大型语言模型的（R）演进：一项调查

连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发，目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs，分析了它们的体系结构选择、多模态对齐策略和训练技术。同时，还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外，我们还编译和描述了训练数据集和评估基准，并在性能和计算要求方面对现有模型进行了比较。总体而言，本调查提供了当前最新技术的全面概述，为未来的 MLLMs 奠定了基础。

Feb, 2024

AlignGPT: 具有自适应对齐能力的多模态大型语言模型

利用新的多模态大型语言模型 AlignGPT，通过在预训练阶段为不同的图像 - 文本对分配不同级别的对齐能力，并在指导微调阶段自适应地组合这些不同级别的对齐能力，以满足不同指令的动态对齐需求，取得了 12 个基准测试的竞争性性能。

May, 2024

多模态大型语言模型的数据中心视角调查

本综述以数据为中心的视角全面回顾多模态大型语言模型的文献，探索了在多模态数据准备、预训练和适应阶段的方法，分析了数据集的评估方法和评估多模态大型语言模型的基准。此外，本综述还概述了未来的研究方向，以便为研究人员提供对多模态大型语言模型的数据驱动方面的详细理解，推动该领域的进一步探索和创新。

May, 2024

多模式大型语言模型综述

本文旨在追踪和总结 MLLM 的最新进展，包括 MLLM 的公式，技术和应用，以及现有的挑战和有前途的研究方向。

Jun, 2023

医学中大型语言模型与多模态大型语言模型的综述

该调查论文介绍了 LLMs 和 MLLMs 的发展背景和原则，并探讨了它们在医学中的应用场景、挑战和未来方向。通过追踪从传统模型到 LLMs 和 MLLMs 的演变，概括了模型结构以提供详细的基础知识。强调 LLMs 和 MLLMs 在医疗保健中的巨大价值，调查总结了 6 个有前景的医疗应用。同时讨论了医学 LLMs 和 MLLMs 面临的挑战，并提出了将人工智能与医学进一步整合的可行方法和方向。旨在为研究人员提供一个有价值且全面的参考指南。

May, 2024

ModaVerse: 用 LLMs 高效转换模态

引入了 ModaVerse，一种多模态大型语言模型（MLLM），能够理解和转换图像、视频和音频等不同模态的内容。通过在自然语言层面上进行输入 / 输出对齐，避免了潜在特征对齐的复杂性，简化了现有 MLLM 的多个训练阶段，从而显著降低了数据和计算成本。在多个基准实验中，我们的方法取得与最先进技术相当的性能，同时在数据使用和训练时间上实现了显著的效率提升。

Jan, 2024

X-LLaVA: 优化双语大型视觉语言对齐

我们提出了两种解决多模态模型创建训练数据方面的问题的有效方法，并基于这些方法构建了一个 91K 的英 - 韩 - 中多语言多模态训练数据集，并开发了一种双语多模态模型，在韩语和英语方面表现出优秀的性能，超过了现有方法。

Mar, 2024

多模态大型语言模型综述

本文探究了多模态语言模型的研究，集成了多种数据类型，如图像、文本、语言、音频和其他异构数据。通过合并各种模态，多模态模型能够更全面地理解和处理多样化的数据，本文旨在促进对多模态模型及其在各领域中的潜力的更深入理解。

Nov, 2023

分析多模态大型语言模型的视觉感知

本研究提出了一种新的方法来增强多模式大型语言模型的可解释性，通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合，从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性，使我们能够设计一种新的显著性图以解释任何输出标记，识别模型幻觉，并通过语义对抗扰动评估模型的偏见。

May, 2024