Jan, 2024

SciMMIR:科学多模态信息检索的基准评测

TL;DR通过高级表示学习和跨模态对齐研究,在图像 - 文本匹配方面取得了显著进展。为了弥补科学领域中目前评估图像 - 文本匹配性能的不足,我们开发了一种专门的科学多模态信息检索(SciMMIR)基准,利用开放获取的论文集提取与科学领域相关的数据,包括从科学文档中提取的详细标题的图表图像对,并对其进行了两级子集 - 子类别层次注释,以便更全面地评估基线模型。我们对重要的多模态图像字幕生成和视觉语言模型(如 CLIP 和 BLIP)进行了零样本和微调评估,分析结果为科学领域的多模态信息检索提供了关键洞察,包括预训练和微调设置的影响以及视觉和文本编码器的影响。所有我们的数据和检查点都可以在该 URL 中公开获取。