AnyMAL: 一种高效且可扩展的任意模态增强语言模型

Sep, 2023

AnyMAL: 一种高效且可扩展的任意模态增强语言模型

AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model

Seungwhan Moon, Andrea Madotto, Zhaojiang Lin, Tushar Nagarajan, Matt Smith...

TL;DR我们提出了 Any-Modality Augmented Language Model (AnyMAL)，这是一个统一模型，可以对多样化的输入模态信号（文本、图像、视频、音频、IMU 运动传感器）进行推理，并生成文本回复。AnyMAL 继承了最先进的 LLMs（如 LLaMA-2 (70B)）的强大的基于文本的推理能力，并通过预训练的对齐模块将模态特定信号转换为联合文本空间。为了进一步增强多模态 LLM 的功能，我们使用人工收集的多模态指令集对模型进行了微调，以覆盖复杂的主题和任务。我们进行了全面的经验分析，包括人工和自动评估，并在各种多模态任务上展示了最先进的性能。

Abstract

We present any-modality augmented language model (AnyMAL), a unified model that reasons over diverse input modality signals (i.e. text, image, video, audio, IMU motion sensor), and generates textual responses. An

any-modality augmented language model unified model multimodal llm modality-specific signals multimodal tasks

发现论文，激发创造

AnyGPT：统一的多模态离散顺序建模语言模型

我们介绍了 AnyGPT，一种任意到任意的多模态语言模型，它利用离散表示来统一处理各种语言模式，包括语音、文本、图像和音乐。AnyGPT 可以稳定地进行训练，而无需对当前的大型语言模型（LLM）架构或训练模式进行任何修改，而是完全依赖于数据级的预处理，使得新的模态能够无缝地集成到 LLM 中，类似于添加新的语言。我们构建了一个多模态以文本为中心的数据集，用于多模态对齐的预训练。通过使用生成模型，我们合成了第一个大规模的任意多模态指导数据集。它包含了 108k 个多轮对话样本，这些对话样本巧妙地交织了各种模态，从而使得模型能够处理任意的多模态输入和输出组合。实验结果表明，AnyGPT 能够促进任意到任意的多模态对话，同时在所有模态上实现了与专用模型相媲美的性能，证明了离散表示在语言模型中可以有效而便捷地统一多个模态。演示参见此 https 链接。

Feb, 2024

NExT-GPT: 任意到任意多模态 LLM

我们介绍了一个名为 NExT-GPT 的全方位任意多模式多语言模型系统，通过使用多模态适配器和不同扩散解码器，NExT-GPT 能够接受和生成文本、图像、视频和音频等任意组合的内容，并通过调优投影层的少量参数进行训练和扩展，使其具备复杂的跨模态语义理解和内容生成能力，为构建能够模拟通用模态的人工智能代理提供了有前景的可能性。

Sep, 2023

MMMModal -- 多图像多音频多轮多模态

我们介绍了一种开创性的多模态大型语言模型，能够在一个多轮对话中理解多图像、多音频和多图像 - 多音频。借助最先进的模型，我们利用 SigLIP 编码器进行视觉输入和 Whisper 编码器进行音频输入。值得注意的是，这个多模态大型语言模型是双语的，能够同时理解英文和马来文。我们自豪地推出了这个模型的两个版本：参数量为 1.1B 的 TinyLlama 和参数量为 7B 的 Mistral。我们的模型能够处理多样的模态和语言，代表了马来西亚及其他地区的重大进展。

Feb, 2024

MISAR：一种具备增强现实的多模态指导系统

创新方法利用大语言模型融合视觉、听觉和语境模态，以提高增强现实系统的状态估计，为更自适应的增强现实系统迈出了一步。

Oct, 2023

Macaw-LLM：多模态语言模型与图像、音频、视频和文本混合

本研究提出 Macaw-LLM，一种新型的多模式学习模型，可以无缝整合视觉、音频和文本信息，其中主要包括三个模块：一种用于编码多模式数据的模态模块，一种利用预训练 LLM 的认知模块，和一种用于协调多样化表示形式的对齐模块，并在此基础上构建了一个大规模的多模式指令数据集以应对复杂的实际场景。

Jun, 2023

学习基于语言引导的自适应超模态表示用于多模态情感分析

通过利用多个信息源（如语言、视频和音频），多模态情感分析（MSA）证明了其有效性，但不同模态间可能存在情感不相关和冲突的信息，从而限制了进一步提高性能。为了缓解这个问题，我们提出了自适应语言引导的多模态 Transformer（ALMT），它通过自适应的超模态学习（AHL）模块，在不同尺度上利用语言特征的指导从视觉和音频特征中学习抑制不相关和冲突的表示。通过获取超模态表示，该模型可以通过多模态融合获得互补和联合表示，以实现有效的 MSA。在实践中，ALMT 在几个知名数据集（如 MOSI，MOSEI 和 CH-SIMS）上实现了最先进的性能，并通过大量割舍实验证明了我们的抑制不相关和冲突的机制的有效性和必要性。

Oct, 2023

多模态指导的细粒度视觉感知语言模型优化

提出了 AnyRef 模型，它能从多模态参考中生成像素级的物体感知和自然语言描述，从而提供更大的灵活性，超越了文本和区域提示，无需特定的设计。通过提出的重新聚焦机制，生成的定位输出可以更好地聚焦在参考对象上，从而隐含地融入了像素级的监督。该模型在多个基准测试中取得了最先进的结果，包括多模态参考分割和区域级参考表达生成。

Mar, 2024

大型 AI 模型赋能的多模态语义通信

利用大型人工智能模型构建的大规模多模态语义通信（LAM-MSC）框架，通过多模态对齐、个性化语言模型和信道状态估计相结合来解决多模态语义通信中的数据异构性、语义歧义和信号衰落等挑战，并通过模拟实验验证了该框架的卓越性能。

Sep, 2023

图像任意：朝着始终合理推理和无需训练的多模态图像生成

ImgAny 是一种新颖的端到端多模态生成模型，可以模仿人类推理并生成高质量图像。该方法能够有效且灵活地接收来自语言、音频和视觉等七种不同的模态组合，并通过实体融合分支和属性融合分支整合多个输入模态，并利用预训练的稳定扩散模型生成图像。大量实验证明了其在视觉内容创作方面的卓越能力。

Jan, 2024

图像、视频、音频和语言任务的统一模型

通过 UnIVAL 统一模型，可以有效地支持图像、文本、视频和音频等多种模态任务，并通过模型权重插值实现多模态模型融合，展示其在特定领域的分布外泛化能力。

Jul, 2023