Sep, 2023

AnyMAL: 一种高效且可扩展的任意模态增强语言模型

TL;DR我们提出了 Any-Modality Augmented Language Model (AnyMAL),这是一个统一模型,可以对多样化的输入模态信号(文本、图像、视频、音频、IMU 运动传感器)进行推理,并生成文本回复。AnyMAL 继承了最先进的 LLMs(如 LLaMA-2 (70B))的强大的基于文本的推理能力,并通过预训练的对齐模块将模态特定信号转换为联合文本空间。为了进一步增强多模态 LLM 的功能,我们使用人工收集的多模态指令集对模型进行了微调,以覆盖复杂的主题和任务。我们进行了全面的经验分析,包括人工和自动评估,并在各种多模态任务上展示了最先进的性能。