MMEvol：通过Evol-Instruct赋能多模态大型语言模型

Sep, 2024

MMEvol：通过Evol-Instruct赋能多模态大型语言模型

MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct

Run Luo, Haonan Zhang, Longze Chen, Ting-En Lin, Xiong Liu...

TL;DR本研究解决了多模态大型语言模型（MLLMs）在数据质量上的瓶颈问题。我们提出的MMEvol框架通过细致的感知、认知推理和交互进化，迭代提升指令数据的质量，从而生成更复杂和多样化的图像-文本指令数据集。研究表明，相比于初始种子数据训练的基准模型，我们的方法在13个视觉-语言任务上实现了平均3.1个百分点的准确率提升，并在九个任务上达到了最先进的表现。

Abstract

The development of Multimodal Large Language Models (MLLMs) has seen significant advancements with increasing demands in various fields (e.g., multimodal agents, embodied intelligence). While model-driven approaches attempt to enhance MLLMs capabilities through diverse architectures, t

发现论文，激发创造

多模式大型语言模型综述

本文旨在追踪和总结MLLM的最新进展，包括MLLM的公式，技术和应用，以及现有的挑战和有前途的研究方向。

Jun, 2023

面向通用多模态助手的视觉语言基础模型和数据集的重新构建

最近的多模态大型语言模型 (MLLMs) 在感知图像以及遵循开放性指令方面表现出令人印象深刻的能力。MLLMs 的能力取决于两个关键因素：用于实现视觉模块和大型语言模型特征对齐的模型架构以及用于人类指令跟随的多模态指令调整数据集。本研究发现，紧凑的预训练视觉语言模型天然地可以作为视觉和语言之间 '开箱即用' 的桥梁。基于此，我们提出了 Muffin 框架，直接使用预训练的视觉语言模型作为视觉信号的提供者。此外，我们还提出了 UniMM-Chat 数据集，探索了数据集之间的补充关系，生成了 1.1M 个高质量而多样化的多模态指令。实验结果表明 Muffin 框架和 UniMM-Chat 数据集的有效性。Muffin 在广泛的视觉语言任务中实现了最先进的性能，显著超过了 LLaVA 和 InstructBLIP 等最先进模型。我们的模型和数据集均可在此链接处访问。

Oct, 2023

MM-BigBench：评估多模态模型在多模态内容理解任务上的表现

通过使用全面的评估框架MM-BigBench，本文综合评估了20个语言模型（包括14个多模态大型语言模型）在14个多模态数据集上的性能，并通过引入新的指标，对不同模型和指令之间的性能以及适应性进行了评估。

Oct, 2023

LION：赋能双层视觉知识的多模态大语言模型

多模态大型语言模型（MLLMs）借助视觉知识的两个层面提升了理解和感知多模态信号的能力。通过逐步整合细粒度的空间感知视觉知识和软提示高级语义视觉证据的方法，我们的模型在多个多模态基准测试中展示了过人的优越性能。

Nov, 2023

融入视觉专家解决多模态大语言模型中的信息损失

这篇论文提出了一种通过专家混合知识增强机制来改善多模态大型语言模型(MLLMs)的视觉感知能力的方法，并通过集成视觉专家实现了视觉输入的更全面准确的概括，进一步提升了MLLMs的视觉感知能力。

Jan, 2024

多模态大型语言模型的（R）演进：一项调查

连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发，目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的MLLMs，分析了它们的体系结构选择、多模态对齐策略和训练技术。同时，还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外，我们还编译和描述了训练数据集和评估基准，并在性能和计算要求方面对现有模型进行了比较。总体而言，本调查提供了当前最新技术的全面概述，为未来的MLLMs奠定了基础。

Feb, 2024

MM-Instruct: 大型多模态模型对齐的生成视觉指令

该研究介绍了MM-Instruct，这是一个大规模、多样化和高质量的视觉指导数据集，旨在增强大型多模态模型（LMMs）的指令跟随能力，并通过使用现有的LLMs从大规模图像字幕数据集生成新的视觉指导数据，并介绍了一个基于生成的指导数据来评估现有LMMs的指令跟随能力的基准。

Jun, 2024

MMEvol：通过Evol-Instruct赋能多模态大语言模型

本研究旨在解决现有多模态语言模型在指令数据的数量和质量上的瓶颈，提出了一种新颖的多模态指令数据演进框架MMEvol。该框架通过细粒度感知演进、认知推理演进和交互演进的结合，生成复杂多样的图像-文本指令数据集，从而显著提升了多模态大语言模型的性能，实验证明相比基线模型提高了3.1个百分点，并在9个任务上达到了当前最佳表现。

Sep, 2024

MMEvol：通过Evol-Instruct增强多模态大型语言模型

本研究针对多模态大型语言模型（MLLMs）在数据质量方面面临的瓶颈问题，提出了MMEvol框架，通过精细化感知、认知推理和交互演化的结合，迭代性地生成复杂多样的图像-文本指令数据集。实验表明，相较于初始种子数据训练的基线模型，我们的方法在13个视觉语言任务中平均提高了3.1个百分点的准确率，并在九个任务中达到了最新的性能，同时使用的数据量显著减少。

Sep, 2024

MM1.5：多模态大语言模型微调的方法、分析与洞察

本研究解决了多模态大语言模型在图像理解和推理方面的能力不足问题。通过采用数据中心的方法，系统地研究不同数据组合对模型训练的影响，论文展示了高质量数据与优化训练策略的有效性。研究表明，即使在小规模模型（1B和3B参数）下，精心的数据策划也能显著提升性能，推动了未来多模态大语言模型的发展。

Sep, 2024