Macaw-LLM：多模态语言模型与图像、音频、视频和文本混合

Jun, 2023

Macaw-LLM：多模态语言模型与图像、音频、视频和文本混合

Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and Text Integration

Chenyang Lyu, Minghao Wu, Longyue Wang, Xinting Huang, Bingshuai Liu...

TL;DR本研究提出 Macaw-LLM，一种新型的多模式学习模型，可以无缝整合视觉、音频和文本信息，其中主要包括三个模块：一种用于编码多模式数据的模态模块，一种利用预训练 LLM 的认知模块，和一种用于协调多样化表示形式的对齐模块，并在此基础上构建了一个大规模的多模式指令数据集以应对复杂的实际场景。

Abstract

Although instruction-tuned large language models (LLMs) have exhibited remarkable capabilities across various NLP tasks, their effectiveness on other data modalities beyond text has not been fully studied. In this work, we propose Macaw-LLM, a novel multi-modal LLM that seamlessly inte

large language models multi-modal learning alignment module multi-modal instruction dataset pretrained models

发现论文，激发创造

mPLUG-Owl：模块化赋予大型语言模型多模态能力

本研究介绍了一种新的培训范式 mPLUG-Owl，该方法通过基于模块化的学习将 Large language models（LLMs）配备了多模态能力。实验表明，通过此方法可以获得多种单模态和多模态能力，包括指导视觉能力、多回合对话和知识推理等，同时出现了一些意想不到且令人兴奋的特性，如多图像相关性和场景文本理解。

Apr, 2023

音视频 LLM 用于视频理解

该论文介绍了一种名为 Audio-Visual LLM 的多模态大型语言模型，它通过同时接收视觉和听觉输入来进行综合视频理解。该模型的关键设计是模态增强训练，它通过集成专门设计的模态特定标记来有选择地激活适当的视觉和 / 或听觉编码器。此机制对于实现端到端的多模态视频数据联合训练至关重要。实验证明，Audio-Visual LLM 在各种视频理解任务中取得了令人印象深刻的零样本结果。

Dec, 2023

多模态大型语言和视觉模型综述

通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾，本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用，以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析了伦理考虑和挑战，并讨论了开源和专有模型在 AI 研究中的影响。通过这个综述，我们揭示了 MM-LLM 在各种应用中的转型潜力。

Mar, 2024

MammothModa: 多模大语言模型

我们介绍了 MammothModa，这是另一个多模态大型语言模型（MLLM），旨在从基本基线实现最先进的性能。我们关注了三个关键设计见解：（i）在保持复杂语言理解的同时融入视觉能力：除了视觉编码器外，我们还将视觉注意力专家纳入 LLM 以增强其视觉能力。（ii）扩展上下文窗口以获得高分辨率和长持续时间的视觉特征：我们探索了视觉合并模块，以有效地减少高分辨率图像的标记数量，并引入了帧位置 ID 以避免位置插值。（iii）高质量的双语数据集：我们精心策划和筛选了一个高质量的双模态双语数据集，以减少视觉幻觉。通过上述方法，我们构建的 MammothModa 在主要的真实世界视觉语言基准测试中始终优于最先进的模型，例如 LLaVA 系列模型，而没有花里胡哨的东西。

Jun, 2024

鹦鹉：多语言视觉指令调整

Parrot 是一种新方法，利用文本指导在语言级别驱动视觉令牌对齐，以增强多语言大型语言模型的多模态能力，并提供了一个大规模多语言多模态基准测试数据集（MMMB）。

Jun, 2024

Video-LLaMA: 一种面向视频理解的指令优化的音视频语言模型

Video-LLaMA 是一种多模态框架，通过将预训练的视觉和音频编码器与预训练的大型语言模型结合，实现对视频内容的理解，具有捕捉视觉场景中的时间变化和整合音频 - 视觉信号等优势，因此被视为具有潜力的音视频 AI 助手原型。

Jun, 2023

MMMModal -- 多图像多音频多轮多模态

我们介绍了一种开创性的多模态大型语言模型，能够在一个多轮对话中理解多图像、多音频和多图像 - 多音频。借助最先进的模型，我们利用 SigLIP 编码器进行视觉输入和 Whisper 编码器进行音频输入。值得注意的是，这个多模态大型语言模型是双语的，能够同时理解英文和马来文。我们自豪地推出了这个模型的两个版本：参数量为 1.1B 的 TinyLlama 和参数量为 7B 的 Mistral。我们的模型能够处理多样的模态和语言，代表了马来西亚及其他地区的重大进展。

Feb, 2024

X-LLaVA: 优化双语大型视觉语言对齐

我们提出了两种解决多模态模型创建训练数据方面的问题的有效方法，并基于这些方法构建了一个 91K 的英 - 韩 - 中多语言多模态训练数据集，并开发了一种双语多模态模型，在韩语和英语方面表现出优秀的性能，超过了现有方法。

Mar, 2024

LLMs 满足多模态生成和编辑的综述

多模态生成技术的调查，介绍了不同领域中的重要进展，包括图像、视频、3D 和音频，研究了方法和数据集，还提出了使用现有生成模型进行人机交互的工具增强型多模态代理，同时探讨了人工智能安全问题和新兴应用及未来前景。

May, 2024

多模态大型语言模型的（R）演进：一项调查

连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发，目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs，分析了它们的体系结构选择、多模态对齐策略和训练技术。同时，还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外，我们还编译和描述了训练数据集和评估基准，并在性能和计算要求方面对现有模型进行了比较。总体而言，本调查提供了当前最新技术的全面概述，为未来的 MLLMs 奠定了基础。

Feb, 2024