Ovis: 多模型大型语言模型的结构嵌入对齐

May, 2024

Ovis: 多模型大型语言模型的结构嵌入对齐

Ovis: Structural Embedding Alignment for Multimodal Large Language Model

Shiyin Lu, Yang Li, Qing-Guo Chen, Zhao Xu, Weihua Luo...

TL;DR通过结构对齐视觉和文本嵌入，提出了一种名为 Ovis 的新的多模态大型语言模型体系结构，以捕捉图像的丰富语义，并在各种多模态基准测试中表现出优越性能，从而推动了多模态学习的更有效进展。

Abstract

Current multimodal large language models (MLLMs) typically integrate a pre-trained LLM with another pre-trained vision transformer through a connector, such as an MLP, endowing the LLM with visual capabilities. However, the misalignment between two →

multimodal large language models embedding strategies ovis visual and textual information multimodal learning

发现论文，激发创造

mPLUG-Owl：模块化赋予大型语言模型多模态能力

本研究介绍了一种新的培训范式 mPLUG-Owl，该方法通过基于模块化的学习将 Large language models（LLMs）配备了多模态能力。实验表明，通过此方法可以获得多种单模态和多模态能力，包括指导视觉能力、多回合对话和知识推理等，同时出现了一些意想不到且令人兴奋的特性，如多图像相关性和场景文本理解。

Apr, 2023

分析多模态大型语言模型的视觉感知

本研究提出了一种新的方法来增强多模式大型语言模型的可解释性，通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合，从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性，使我们能够设计一种新的显著性图以解释任何输出标记，识别模型幻觉，并通过语义对抗扰动评估模型的偏见。

May, 2024

超越嵌入：多模型中视觉表格的潜力

本研究提出了一种用于多模态大型语言模型的新型视觉表达方法 ——Visual Table，它提供了层次化的视觉场景文本描述，并包括了场景描述和多个以对象为中心的描述，涵盖了类别、属性和实例级别的知识。通过生成的视觉表格作为额外的视觉表示，我们的模型在多个基准测试中始终优于现有最先进的多模态大型语言模型。当视觉表格作为独立的视觉表示时，我们的模型可以与甚至超过基于 CLIP 视觉嵌入的最先进的多模态大型语言模型。

Mar, 2024

MouSi：多视觉专家视觉语言模型

使用集成专家技术，从不同的视觉编码器中协同能力，通过融合网络统一处理来自不同视觉专家的输出，并解决图像编码器和预训练 LLMs 之间的差距，同时探索不同的位置编码方案以解决位置溢出和长度限制问题，实验证明，具有多个专家的 VLMs 在性能上表现出优势，并随着集成更多专家而显著提升表现。

Jan, 2024

利用视觉检测模型增强多模态大型语言模型：实证研究

通过融合先进的目标检测和光学字符识别模型，我们在多模态大型语言模型的基础上进行了实证研究，以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法，该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与 LLaVA-1.5、DINO 和 PaddleOCRv2 等模型进行系统实验，我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能，而且保持了其原始优势。结果表明，改进后的多模态大型语言模型在 10 个基准测试中有 9 个超过了先进模型，在规范化的平均得分上取得了最高 12.99% 的提升，标志着多模态理解领域的重大进展。通过发布我们的代码，我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。

Jan, 2024

MoVA: 将多模态背景下的视觉专家混合进行调整

通过将任务特定视觉专家与粗到细的机制自适应地路由和融合，MoVA 可在各种具有挑战性的多模态基准测试中显著提高性能。

Apr, 2024

大语言模型权重的视觉感知

通过参数空间对齐，我们提出了一种新颖的方法来表示视觉信息，将其表示为模型权重，并使用感知权重与 LLM 的权重进行合并。这种方法不需要视觉令牌作为 LLM 的输入，从而减少了输入序列的长度并大大提高了效率。我们的 VLoRA 基于此方法，通过感知权重生成器将视觉特征转换为低秩属性的感知权重，通过在各种基准测试中实验证明，VLoRA 在 MLLMs 上实现了可比较的性能，并显著降低了训练和推断的计算成本。

May, 2024

基于深度学习的视觉 - 语言任务统一框架

通过引入 pool-adapter 模块，保留视觉嵌入的位置信息，我们的 InfMLLM 方法在图像描述、视觉问题回答和视觉定位等任务中达到了与最新的多模态大语言模型相当或超越的性能。

Nov, 2023

融入视觉专家解决多模态大语言模型中的信息损失

这篇论文提出了一种通过专家混合知识增强机制来改善多模态大型语言模型 (MLLMs) 的视觉感知能力的方法，并通过集成视觉专家实现了视觉输入的更全面准确的概括，进一步提升了 MLLMs 的视觉感知能力。

Jan, 2024

VISTA：可视化文本嵌入用于通用多模态检索

我们提出了一种新的嵌入模型 VISTA，用于通用的多模态检索，该模型在零样本和监督设置下在各种多模态检索任务中都取得了优越的性能。

Jun, 2024