Jul, 2024

E5-V: 多模态大语言模型的通用嵌入

TL;DR本研究介绍了一个名为E5-V的新框架,旨在通过调整多模态大型语言模型(MLLMs)来实现通用的多模态嵌入表征。我们的发现突出了相较于以往方法,MLLMs在表征多模态输入方面的显著潜力。通过与提示语一起使用MLLMs,E5-V有效地弥合了不同类型输入之间的模态差距,在多模态嵌入方面展现出强大的性能,即使在没有进行微调的情况下。我们提出了一种E5-V的单模态训练方法,即仅对文本对进行训练。该方法在图像-文本对的传统多模态训练基础上取得了显著的改进,同时将训练成本降低了约95%。此外,该方法消除了昂贵的多模态训练数据收集的需求。通过在四类任务上进行大量实验,证明了E5-V的有效性。作为一种通用多模态模型,尽管仅在单一模态上进行训练,E5-V不仅实现了,而且经常超过每项任务的最新性能水平。