E5-V: 多模态大语言模型的通用嵌入

Jul, 2024

E5-V: 多模态大语言模型的通用嵌入

E5-V: Universal Embeddings with Multimodal Large Language Models

Ting Jiang, Minghui Song, Zihan Zhang, Haizhen Huang, Weiwei Deng...

TL;DR本研究介绍了一个名为E5-V的新框架，旨在通过调整多模态大型语言模型（MLLMs）来实现通用的多模态嵌入表征。我们的发现突出了相较于以往方法，MLLMs在表征多模态输入方面的显著潜力。通过与提示语一起使用MLLMs，E5-V有效地弥合了不同类型输入之间的模态差距，在多模态嵌入方面展现出强大的性能，即使在没有进行微调的情况下。我们提出了一种E5-V的单模态训练方法，即仅对文本对进行训练。该方法在图像-文本对的传统多模态训练基础上取得了显著的改进，同时将训练成本降低了约95%。此外，该方法消除了昂贵的多模态训练数据收集的需求。通过在四类任务上进行大量实验，证明了E5-V的有效性。作为一种通用多模态模型，尽管仅在单一模态上进行训练，E5-V不仅实现了，而且经常超过每项任务的最新性能水平。

Abstract

multimodal large language models (mllms) have shown promising advancements in general visual and language understanding. However, the representation of multimodal information using →

发现论文，激发创造

多模态神经语言模型统一视觉-语义嵌入

本文提出了一种多模态学习的编码器-解码器模型，学习图像和文本的多模态联合嵌入空间和现代语言模型。使用LSTM进行句子编码，该模型在Flickr8K和Flickr30K数据集上表现出色。同时，该模型通过线性编码器捕捉到了空间算术中的多模态规律。

Nov, 2014

MLLMs增强的视觉-语言表示学习

我们展示了多模态大型语言模型（MLLMs）通过提高数据质量来增强视觉语言表示学习，使用MLLMs扩展每个图像的多个标题，通过“文本切割”方法来防止MLLMs引入的偏见和内在标题风格，并在图像文本检索中，在微调和零样本设置下分别获得5.6〜35.0％和16.8〜46.1％的R@1提升，并且我们的零样本结果可与目标数据集上的微调相媲美，鼓励更多对MLLMs的多方面使用的探索。

Nov, 2023

融入视觉专家解决多模态大语言模型中的信息损失

这篇论文提出了一种通过专家混合知识增强机制来改善多模态大型语言模型(MLLMs)的视觉感知能力的方法，并通过集成视觉专家实现了视觉输入的更全面准确的概括，进一步提升了MLLMs的视觉感知能力。

Jan, 2024

利用视觉检测模型增强多模态大型语言模型：实证研究

通过融合先进的目标检测和光学字符识别模型，我们在多模态大型语言模型的基础上进行了实证研究，以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法，该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与LLaVA-1.5、DINO和PaddleOCRv2等模型进行系统实验，我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能，而且保持了其原始优势。结果表明，改进后的多模态大型语言模型在10个基准测试中有9个超过了先进模型，在规范化的平均得分上取得了最高12.99%的提升，标志着多模态理解领域的重大进展。通过发布我们的代码，我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。

Jan, 2024

多模态大型语言模型的（R）演进：一项调查

连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发，目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的MLLMs，分析了它们的体系结构选择、多模态对齐策略和训练技术。同时，还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外，我们还编译和描述了训练数据集和评估基准，并在性能和计算要求方面对现有模型进行了比较。总体而言，本调查提供了当前最新技术的全面概述，为未来的MLLMs奠定了基础。

Feb, 2024

探索多模态大型语言模型的全局和局部语义表示

研究发现，模型的中间层能够更好地编码全局语义信息，表征向量在视觉-语言蕴含任务中表现更好，而最顶层的模型可能过于关注局部信息，导致对全局信息编码能力减弱。

Feb, 2024

面向视觉与语言模型的多模态上下文学习

通过对一些最先进的VLM（Visual Language Model）进行分析，我们发现它们在执行ICL（In-Context Learning）指令时存在一定的不足。为了验证这个猜想，我们提出了一种简单但令人惊讶地有效的策略，通过扩展一个常见的VLM对齐框架，实现ICL支持、方法和课程设置。我们探讨、分析并提供了对有效数据混合的见解，从而显著提升了21.03%的ICL表现（平均11.3%），超过了最强VLM基线和多种ICL基准，并为VLM的ICL评估贡献了新的基准，并讨论了它们相对于现有技术的优势。

Mar, 2024

Ovis: 多模型大型语言模型的结构嵌入对齐

通过结构对齐视觉和文本嵌入，提出了一种名为 Ovis 的新的多模态大型语言模型体系结构，以捕捉图像的丰富语义，并在各种多模态基准测试中表现出优越性能，从而推动了多模态学习的更有效进展。

May, 2024

多模态大语言模型的综合评估：不同任务的性能与挑战

本研究解决了多模态大语言模型（MLLMs）在实际应用中面临的挑战和不足。通过系统归纳MLLM在语言、视觉和音频等多模态任务中的应用，并分析不同模型的关注点，本文提出了未来研究的潜在方向。研究结果为MLLM的发展和应用提供了重要的见解。

Aug, 2024

EE-MLLM：一种数据高效和计算高效的多模态大型语言模型

本研究解决了当前多模态大型语言模型中数据和计算效率之间的权衡问题。提出的EE-MLLM通过改进原有的自注意力机制，采用组合注意力机制，既不增加额外模块或可学习参数，又有效提升了数据和计算效率。实验结果验证了EE-MLLM在多个基准测试上的优越性能，具有显著的潜在影响。

Aug, 2024