OmniFusion 技术报告

Apr, 2024

OmniFusion Technical Report

Elizaveta Goncharova, Anton Razzhigaev, Matvey Mikhalchuk, Maxim Kurkin, Irina Abdullaeva...

TL;DR基于预训练的大型语言模型和视觉模态的适配器，我们提出了一种全融合模型 OmniFusion，通过比较多种架构设计原则、图像编码方法和不同的语言模型，在 8 个视觉语言基准测试中取得了最高得分，提供了在不同领域中的高度详细答案，同时我们还提供了 Mistral-based OmniFusion 模型的开源解决方案链接。

Abstract

Last year, multimodal architectures served up a revolution in AI-based approaches and solutions, extending the capabilities of large language models (LLM). We propose an \textit{OmniFusion} model based on a pretrained LLM and →

multimodal architectures omnifusion model adapters visual-language benchmarks open-source solution

发现论文，激发创造

面向通用多模态助手的视觉语言基础模型和数据集的重新构建

最近的多模态大型语言模型 (MLLMs) 在感知图像以及遵循开放性指令方面表现出令人印象深刻的能力。MLLMs 的能力取决于两个关键因素：用于实现视觉模块和大型语言模型特征对齐的模型架构以及用于人类指令跟随的多模态指令调整数据集。本研究发现，紧凑的预训练视觉语言模型天然地可以作为视觉和语言之间 ' 开箱即用 ' 的桥梁。基于此，我们提出了 Muffin 框架，直接使用预训练的视觉语言模型作为视觉信号的提供者。此外，我们还提出了 UniMM-Chat 数据集，探索了数据集之间的补充关系，生成了 1.1M 个高质量而多样化的多模态指令。实验结果表明 Muffin 框架和 UniMM-Chat 数据集的有效性。Muffin 在广泛的视觉语言任务中实现了最先进的性能，显著超过了 LLaVA 和 InstructBLIP 等最先进模型。我们的模型和数据集均可在此链接处访问。

Oct, 2023

OmniVL: 图像 - 语言和视频 - 语言任务的基础模型

OmniVL 提出了一种新的基础模型，它通过使用一种通用架构来支持图像语言和视频语言任务，采用了一种统一的基于 Transformer 的视觉编码器，以此来实现联合图像语言和视频语言的预训练，并展示了这种范式的好处，并且这种模型能够同时支持视觉任务，跨模态任务和多模态理解。

Sep, 2022

融合模型用于改进视觉字幕生成

本文提出了一个通用的多模态模型融合框架，以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合，以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。

Oct, 2020

OmniNet: 多模态多任务学习的统一架构

本文介绍了一种名为 OmniNet 的神经网络框架，使用 Transformer、Spatio-temporal Cache 和自我注意机制来支持多模态学习和异步多任务学习，并演示了训练多个任务的模型在保持性能的前提下大幅度压缩的能力。

Jul, 2019

MultiFusion：预训练模型融合用于多语言，多模态图像生成

本文提出了一种名为 MultiFusion 的方法，利用预训练模型将多个语言和多模态输入整合到单一的图像生成模块中，从而大幅提高了效率。实验证明，MultiFusion 可以将各个独立的组件整合起来，使图像生成模块能够利用来自各种语言和模态的输入。

May, 2023

eP-ALM: 语言模型的高效感知增强

本文提出了一种高效适应单模预训练模型解决多模任务的方法 eP-ALM，在冻结大多数参数、仅训练一个线性投影层，前置仅一个可训练标记的情况下，显著优于基线，并在图像、视频和音频模态下跨越 VQA 和字幕的多个基准测试中取得了最佳性能。

Mar, 2023

一体化探索：多模态对齐下的统一视觉语言跟踪

现有主流的视觉语言（VL）跟踪框架由三部分组成，即视觉特征提取器，语言特征提取器和融合模型。本文提出了一个全新的、一体化的框架，通过采用统一的 Transformer 骨干结构，学习联合特征提取和交互，实现了特征的统一融合，消除了特征集成和融合模块的需求，从而在视觉语言跟踪方面获得了更有效和高效的结果。

Jul, 2023

OneLLM：一种将所有模态与语言对齐的框架

通过统一的多模态编码器和渐进式多模态对齐管道，OneLLM 将八种模态与语言对齐，以充分发挥其在指令跟随中的潜力；在全面的多模态指令数据集上进行评估，并在多模态字幕生成、问答和推理等任务中展现出优异性能。

Dec, 2023

多模态大型语言和视觉模型综述

通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾，本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用，以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析了伦理考虑和挑战，并讨论了开源和专有模型在 AI 研究中的影响。通过这个综述，我们揭示了 MM-LLM 在各种应用中的转型潜力。

Mar, 2024

Cheap and Quick: 大型语言模型高效的视觉语言指导调整

本研究提出了混合模态适应方法（MMA），它采用轻量级的适配器模块来搭建 LLMs 和 VL 任务之间的桥梁，实现图像和语言模型的联合优化，同时具有自适应切换单模和多模指令的功能。该方法被应用于 LaBIn 大型视觉语言指导模型，并在两种场景下进行了实验验证，表明其训练效率和性能竞争力均优于现有多模 LLMs，且具有成为通用聊天机器人的潜力。

May, 2023