MMMModal -- 多图像多音频多轮多模态

Feb, 2024

MMMModal -- 多图像多音频多轮多模态

MMMModal -- Multi-Images Multi-Audio Multi-turn Multi-Modal

Husein Zolkepli, Aisyah Razak, Kamarul Adha, Ariff Nazhan

TL;DR我们介绍了一种开创性的多模态大型语言模型，能够在一个多轮对话中理解多图像、多音频和多图像 - 多音频。借助最先进的模型，我们利用 SigLIP 编码器进行视觉输入和 Whisper 编码器进行音频输入。值得注意的是，这个多模态大型语言模型是双语的，能够同时理解英文和马来文。我们自豪地推出了这个模型的两个版本：参数量为 1.1B 的 TinyLlama 和参数量为 7B 的 Mistral。我们的模型能够处理多样的模态和语言，代表了马来西亚及其他地区的重大进展。

Abstract

Our contribution introduces a groundbreaking multimodal large language model designed to comprehend multi-images, multi-audio, and

multimodal large language model multi-images multi-audio siglip encoder whisper encoder

发现论文，激发创造

MammothModa: 多模大语言模型

我们介绍了 MammothModa，这是另一个多模态大型语言模型（MLLM），旨在从基本基线实现最先进的性能。我们关注了三个关键设计见解：（i）在保持复杂语言理解的同时融入视觉能力：除了视觉编码器外，我们还将视觉注意力专家纳入 LLM 以增强其视觉能力。（ii）扩展上下文窗口以获得高分辨率和长持续时间的视觉特征：我们探索了视觉合并模块，以有效地减少高分辨率图像的标记数量，并引入了帧位置 ID 以避免位置插值。（iii）高质量的双语数据集：我们精心策划和筛选了一个高质量的双模态双语数据集，以减少视觉幻觉。通过上述方法，我们构建的 MammothModa 在主要的真实世界视觉语言基准测试中始终优于最先进的模型，例如 LLaVA 系列模型，而没有花里胡哨的东西。

Jun, 2024

Macaw-LLM：多模态语言模型与图像、音频、视频和文本混合

本研究提出 Macaw-LLM，一种新型的多模式学习模型，可以无缝整合视觉、音频和文本信息，其中主要包括三个模块：一种用于编码多模式数据的模态模块，一种利用预训练 LLM 的认知模块，和一种用于协调多样化表示形式的对齐模块，并在此基础上构建了一个大规模的多模式指令数据集以应对复杂的实际场景。

Jun, 2023

多模态大型语言和视觉模型综述

通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾，本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用，以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析了伦理考虑和挑战，并讨论了开源和专有模型在 AI 研究中的影响。通过这个综述，我们揭示了 MM-LLM 在各种应用中的转型潜力。

Mar, 2024

mPLUG-Owl：模块化赋予大型语言模型多模态能力

本研究介绍了一种新的培训范式 mPLUG-Owl，该方法通过基于模块化的学习将 Large language models（LLMs）配备了多模态能力。实验表明，通过此方法可以获得多种单模态和多模态能力，包括指导视觉能力、多回合对话和知识推理等，同时出现了一些意想不到且令人兴奋的特性，如多图像相关性和场景文本理解。

Apr, 2023

小语言模型的多模态助手全面重构

在本文中，我们研究了 Multimodal Small Language Models（MSLMs）的设计方面，并提出了一种高效的多模态助手 Mipha，旨在在视觉表示、语言模型和优化策略等各个方面产生协同效应。我们展示了在不增加训练数据量的情况下，我们的 Mipha-3B 在多个基准测试中表现优于最先进的大型 MLLMs，尤其是 LLaVA-1.5-13B。通过详细讨论，我们提供了开发强大的 MSLMs 以与 MLLMs 能力匹敌的见解和指南。

Mar, 2024

MISAR：一种具备增强现实的多模态指导系统

创新方法利用大语言模型融合视觉、听觉和语境模态，以提高增强现实系统的状态估计，为更自适应的增强现实系统迈出了一步。

Oct, 2023

大规模多语言多模态摘要数据集

该研究介绍了目前最大的多语言多模态摘要数据集 (M3LS)，该数据集由超过一百万个来自 BBC 的新闻文章组成，跨越 20 种语言，目标在于 5 个语言根上的多样性。研究者们利用该数据集定义了一项多语言多模态摘要任务，并在多语言环境下使用各种最先进的摘要技术报告了基准分数。

Feb, 2023

DialogGen: 多模态交互式对话系统用于多轮文本到图像生成

通过将多模态大型语言模型与文本到图像生成模型相结合，提出了一种用于多轮文本到图像生成的多模态交互对话系统，同时引入了一种全面的多模态对话评估基准，以评估模型在生成准确且连贯的多模态内容上的能力，包括模态切换和输出图像的连贯性。

Mar, 2024

OneLLM：一种将所有模态与语言对齐的框架

通过统一的多模态编码器和渐进式多模态对齐管道，OneLLM 将八种模态与语言对齐，以充分发挥其在指令跟随中的潜力；在全面的多模态指令数据集上进行评估，并在多模态字幕生成、问答和推理等任务中展现出优异性能。

Dec, 2023

AnyMAL: 一种高效且可扩展的任意模态增强语言模型

我们提出了 Any-Modality Augmented Language Model (AnyMAL)，这是一个统一模型，可以对多样化的输入模态信号（文本、图像、视频、音频、IMU 运动传感器）进行推理，并生成文本回复。AnyMAL 继承了最先进的 LLMs（如 LLaMA-2 (70B)）的强大的基于文本的推理能力，并通过预训练的对齐模块将模态特定信号转换为联合文本空间。为了进一步增强多模态 LLM 的功能，我们使用人工收集的多模态指令集对模型进行了微调，以覆盖复杂的主题和任务。我们进行了全面的经验分析，包括人工和自动评估，并在各种多模态任务上展示了最先进的性能。

Sep, 2023

MMMModal -- 多图像 多音频 多轮 多模态

MMMModal -- 多图像多音频多轮多模态