Oct, 2024

VLM2Vec:为大规模多模态嵌入任务训练视觉语言模型

TL;DR本研究解决了通用多模态嵌入模型发展缓慢的问题,通过引入MMEB基准和VLM2Vec框架,推动多模态嵌入模型的通用性和灵活性。VLM2Vec能够根据任务指令处理任意组合的图像和文本,显著提升现有多模态嵌入模型的性能,平均提高10%到20%。