OmniFusion 技术报告
最近的多模态大型语言模型 (MLLMs) 在感知图像以及遵循开放性指令方面表现出令人印象深刻的能力。MLLMs 的能力取决于两个关键因素:用于实现视觉模块和大型语言模型特征对齐的模型架构以及用于人类指令跟随的多模态指令调整数据集。本研究发现,紧凑的预训练视觉语言模型天然地可以作为视觉和语言之间 ' 开箱即用 ' 的桥梁。基于此,我们提出了 Muffin 框架,直接使用预训练的视觉语言模型作为视觉信号的提供者。此外,我们还提出了 UniMM-Chat 数据集,探索了数据集之间的补充关系,生成了 1.1M 个高质量而多样化的多模态指令。实验结果表明 Muffin 框架和 UniMM-Chat 数据集的有效性。Muffin 在广泛的视觉语言任务中实现了最先进的性能,显著超过了 LLaVA 和 InstructBLIP 等最先进模型。我们的模型和数据集均可在此链接处访问。
Oct, 2023
OmniVL 提出了一种新的基础模型,它通过使用一种通用架构来支持图像语言和视频语言任务,采用了一种统一的基于 Transformer 的视觉编码器,以此来实现联合图像语言和视频语言的预训练,并展示了这种范式的好处,并且这种模型能够同时支持视觉任务,跨模态任务和多模态理解。
Sep, 2022
本文提出了一个通用的多模态模型融合框架,以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合,以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。
Oct, 2020
本文介绍了一种名为 OmniNet 的神经网络框架,使用 Transformer、Spatio-temporal Cache 和自我注意机制来支持多模态学习和异步多任务学习,并演示了训练多个任务的模型在保持性能的前提下大幅度压缩的能力。
Jul, 2019
本文提出了一种名为 MultiFusion 的方法,利用预训练模型将多个语言和多模态输入整合到单一的图像生成模块中,从而大幅提高了效率。实验证明,MultiFusion 可以将各个独立的组件整合起来,使图像生成模块能够利用来自各种语言和模态的输入。
May, 2023
本文提出了一种高效适应单模预训练模型解决多模任务的方法 eP-ALM,在冻结大多数参数、仅训练一个线性投影层,前置仅一个可训练标记的情况下,显著优于基线,并在图像、视频和音频模态下跨越 VQA 和字幕的多个基准测试中取得了最佳性能。
Mar, 2023
现有主流的视觉语言(VL)跟踪框架由三部分组成,即视觉特征提取器,语言特征提取器和融合模型。本文提出了一个全新的、一体化的框架,通过采用统一的 Transformer 骨干结构,学习联合特征提取和交互,实现了特征的统一融合,消除了特征集成和融合模块的需求,从而在视觉语言跟踪方面获得了更有效和高效的结果。
Jul, 2023
通过统一的多模态编码器和渐进式多模态对齐管道,OneLLM 将八种模态与语言对齐,以充分发挥其在指令跟随中的潜力;在全面的多模态指令数据集上进行评估,并在多模态字幕生成、问答和推理等任务中展现出优异性能。
Dec, 2023
通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾,本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用,以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析了伦理考虑和挑战,并讨论了开源和专有模型在 AI 研究中的影响。通过这个综述,我们揭示了 MM-LLM 在各种应用中的转型潜力。
Mar, 2024
本研究提出了混合模态适应方法(MMA),它采用轻量级的适配器模块来搭建 LLMs 和 VL 任务之间的桥梁,实现图像和语言模型的联合优化,同时具有自适应切换单模和多模指令的功能。该方法被应用于 LaBIn 大型视觉语言指导模型,并在两种场景下进行了实验验证,表明其训练效率和性能竞争力均优于现有多模 LLMs,且具有成为通用聊天机器人的潜力。
May, 2023