多模态大型语言和视觉模型综述

Mar, 2024

A Review of Multi-Modal Large Language and Vision Models

Kilian Carolan, Laura Fennelly, Alan F. Smeaton

TL;DR通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾，本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用，以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析了伦理考虑和挑战，并讨论了开源和专有模型在 AI 研究中的影响。通过这个综述，我们揭示了 MM-LLM 在各种应用中的转型潜力。

Abstract

large language models (LLMs) have recently emerged as a focal point of research and application, driven by their unprecedented ability to understand and generate text with human-like quality. Even more recently, LLMs have been extended into multi-modal →

large language models multi-modal large language models transformer-based architectures model tuning ethical considerations

发现论文，激发创造

多模态大语言模型（MM-LLMs）的最新进展

综述了过去一年多模态大型语言模型（MM-LLMs）的进展，提供了对 MM-LLMs 的全面调查，包括模型架构和训练流程的设计概述，介绍了 26 种不同形式的 MM-LLMs，并回顾了其在主流基准上的性能以及提升其效力的关键训练方法，同时探索了 MM-LLMs 领域的前景方向。

Jan, 2024

多模式大型语言模型综述

本文旨在追踪和总结 MLLM 的最新进展，包括 MLLM 的公式，技术和应用，以及现有的挑战和有前途的研究方向。

Jun, 2023

多模态大型语言模型的（R）演进：一项调查

连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发，目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs，分析了它们的体系结构选择、多模态对齐策略和训练技术。同时，还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外，我们还编译和描述了训练数据集和评估基准，并在性能和计算要求方面对现有模型进行了比较。总体而言，本调查提供了当前最新技术的全面概述，为未来的 MLLMs 奠定了基础。

Feb, 2024

医学中大型语言模型与多模态大型语言模型的综述

该调查论文介绍了 LLMs 和 MLLMs 的发展背景和原则，并探讨了它们在医学中的应用场景、挑战和未来方向。通过追踪从传统模型到 LLMs 和 MLLMs 的演变，概括了模型结构以提供详细的基础知识。强调 LLMs 和 MLLMs 在医疗保健中的巨大价值，调查总结了 6 个有前景的医疗应用。同时讨论了医学 LLMs 和 MLLMs 面临的挑战，并提出了将人工智能与医学进一步整合的可行方法和方向。旨在为研究人员提供一个有价值且全面的参考指南。

May, 2024

如何弥合模态之间的差距：对多模态大语言模型的全面调查

本综述论文探讨了多模态大型语言模型（MLLMs），该模型整合了类似于 GPT-4 的大型语言模型（LLMs），用于处理文本和视觉等多模态数据。MLLMs 展示了生成图像叙述和回答基于图像的问题等能力，缩小了人与计算机之间的差距，并暗示了通向人工智能的潜在途径。然而，MLLMs 仍面临处理多模态语义差距的挑战，可能导致错误生成，对社会造成潜在风险。选择适当的模态对齐方法至关重要，因为不恰当的方法可能需要更多参数，并且性能改进有限。该论文旨在探讨 LLMs 的模态对齐方法及其现有能力。实施模态对齐使得 LLMs 能够解决环境问题并提高可访问性。研究调查了 MLLMs 中现有的模态对齐方法，分为四个组：（1）多模态转换器将数据转换为 LLMs 可以理解的格式；（2）多模态感知器改善 LLMs 对不同类型数据的感知能力；（3）工具辅助将数据转换为一种常见格式，通常是文本；以及（4）数据驱动方法教导 LLMs 理解数据集中特定类型的数据。这个领域仍处于探索和试验阶段，我们将组织和更新各种现有的多模态信息对齐研究方法。

Nov, 2023

大型多模态代理：综述

大型语言模型在多媒体领域的研究和发展方向的全面回顾，介绍了大型多媒体代理的开发要素和分类，评估方法的编制以及未来研究方向的提出。

Feb, 2024

分析多模态大型语言模型的视觉感知

本研究提出了一种新的方法来增强多模式大型语言模型的可解释性，通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合，从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性，使我们能够设计一种新的显著性图以解释任何输出标记，识别模型幻觉，并通过语义对抗扰动评估模型的偏见。

May, 2024

多模态大型语言模型的数据中心视角调查

本综述以数据为中心的视角全面回顾多模态大型语言模型的文献，探索了在多模态数据准备、预训练和适应阶段的方法，分析了数据集的评估方法和评估多模态大型语言模型的基准。此外，本综述还概述了未来的研究方向，以便为研究人员提供对多模态大型语言模型的数据驱动方面的详细理解，推动该领域的进一步探索和创新。

May, 2024

X-LLaVA: 优化双语大型视觉语言对齐

我们提出了两种解决多模态模型创建训练数据方面的问题的有效方法，并基于这些方法构建了一个 91K 的英 - 韩 - 中多语言多模态训练数据集，并开发了一种双语多模态模型，在韩语和英语方面表现出优秀的性能，超过了现有方法。

Mar, 2024

推进生成人工智能：科学教育中多模态大语言模型的变革性作用

通过呈现示例创新的学习场景，探索了多模态大语言模型 (MLLMs) 在科学教育的核心方面的转变作用，包括文本创作、个性化学习支持、培养科学实践能力以及提供评估和反馈。同时，强调了在实施 MLLMs 时采取平衡的方法的必要性，确保技术对教育者角色的补充，以确保人工智能在科学教育中的有效和道德使用。

Jan, 2024