SciMMIR：科学多模态信息检索的基准评测

Jan, 2024

SciMMIR：科学多模态信息检索的基准评测

SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval

Siwei Wu, Yizhi Li, Kang Zhu, Ge Zhang, Yiming Liang...

TL;DR通过高级表示学习和跨模态对齐研究，在图像 - 文本匹配方面取得了显著进展。为了弥补科学领域中目前评估图像 - 文本匹配性能的不足，我们开发了一种专门的科学多模态信息检索（SciMMIR）基准，利用开放获取的论文集提取与科学领域相关的数据，包括从科学文档中提取的详细标题的图表图像对，并对其进行了两级子集 - 子类别层次注释，以便更全面地评估基线模型。我们对重要的多模态图像字幕生成和视觉语言模型（如 CLIP 和 BLIP）进行了零样本和微调评估，分析结果为科学领域的多模态信息检索提供了关键洞察，包括预训练和微调设置的影响以及视觉和文本编码器的影响。所有我们的数据和检查点都可以在该 URL 中公开获取。

Abstract

multi-modal information retrieval (MMIR) is a rapidly evolving field, where significant progress, particularly in image-text pairing, has been made through advanced representation learning and cross-modality alig

multi-modal information retrieval image-text pairing scientific mmir benchmark visual and textual encoders

发现论文，激发创造

UniIR: 训练和基准测试通用多模态信息检索器

对于信息检索 (IR) 模型通常假设为同质化格式，限制了其适用于各种用户需求，如使用文本描述搜索图片，使用标题图搜索新闻文章或使用查询图搜索相似照片。为了满足这种不同的信息需求，我们引入了 UniIR，一种统一的指令引导多模态检索器，可以处理八个不同的跨模态检索任务。UniIR 是一个单一的检索系统，同时在十个不同的多模态 - IR 数据集上进行训练，解释用户指令来执行各种检索任务，展示了对现有数据集的鲁棒性能以及对新任务的零 - shot 泛化能力。我们的实验突出了多任务训练和指令调整是 UniIR 泛化能力的关键。此外，我们构建了 M-BEIR，一个综合结果的多模态检索基准，用于标准化通用多模态信息检索的评估。

Nov, 2023

跨模态图像 - 文本检索基准的重新思考

本文针对图文检索中的细粒度语义匹配问题，以 MSCOCO-Test-5K 和 Flickr30K-Test-1K 数据集不足的情况为背景，提出了将其重建为 MSCOCO-FG 和 Flickr30K-FG 等数据集的方法，并通过模型评估和实验指出了模型在细粒度语义理解方面的不足之处和提升空间。

Apr, 2023

SciFIBench：科学图表解读大型多模态模型基准测试

SciFIBench 是一个科学图表解释的基准测试，评估了 26 个大型多模态模型在理解和解释图表方面的能力，并探究了模型在拓展问题集上的对齐和推理准确性。

May, 2024

MuirBench: 强大多图像理解综合基准测试

MuirBench 是一个全面的基准测试，侧重于多模式 LLM 的强大的多图像理解能力。MuirBench 由 12 个不同的多图像任务（如场景理解，排序）组成，涉及 10 个多图像关系类别（如多视图关系，时间关系）。通过评估 20 种最新的多模态 LLMs，结果显示即使在表现最佳的模型 GPT-4o 和 Gemini Pro 面对 MuirBench 时也面临挑战，准确率分别为 68.0% 和 49.3%。基于单个图像训练的开源多模态 LLMs 很难推广到多图像问题，准确率低于 33.3%。这些结果凸显了 MuirBench 的重要性，鼓励社区开发能够超越单个图像的多模态 LLMs，并提出未来改进的潜在途径。

Jun, 2024

视觉与语言模型中的多图像理解基准测试：感知、知识、推理和多跳推理

通过引入多图像关系基准（MIRB），我们评估了视觉语言模型（VLMs）在比较、分析和推理多个图像时的能力，并发现开源 VLMs 在单图像任务中接近 GPT-4V 的性能，但在多图像推理任务中存在显著的性能差距。我们的发现表明，即使是最先进的 GPT-4V 模型在我们的基准测试中也存在困难，强调了该领域进一步研究和开发的必要性。我们相信我们的 MIRB 可以作为开发下一代多模态模型的测试平台。

Jun, 2024

3D-MIR：放射学中三维医学图像检索的基准和经验研究

通过引入一个新的基准系统，本文探讨了使用聚合的 2D 切片、3D 体积和流行的多模态基模型的多模态嵌入作为查询，在医学影像领域中进行三维医学图像检索的多种搜索策略，并提供了定量和定性评估，为未来研究提供了深入讨论和见解。

Nov, 2023

解锁科学：跨模态科学信息提取的新型数据集和基准

从科学论文中提取关键信息有助于研究人员提高工作效率并加快科学进展的速度。在过去几年里，科学信息提取（SciIE）的研究见证了数个新系统和基准的发布。然而，现有以论文为中心的数据集主要只关注论文的特定部分（例如摘要），且为单模态（即只有文本或表格），这是因为处理复杂性和高昂的注释费用所导致。此外，核心信息可能存在于文本或表格中，或者跨越二者。为弥补这一数据可用性的差距并实现跨模态信息提取，同时减轻标注成本，我们提出了一个半监督的流程，用于迭代地对文本中的实体、以及表格中的实体和关系进行注释。基于此流程，我们为科学界提供了一些新资源，包括一个高质量的基准、一个大型语料库和一个半监督的注释流程。我们进一步报告了最先进的信息提取模型在提出的基准数据集上的性能作为一个基准。最后，我们探索了像 ChatGPT 这样的大型语言模型在当前任务中的潜在能力。我们的新数据集、结果和分析验证了半监督流程的有效性和效率，同时我们也讨论了其剩余的局限性。

Nov, 2023

零样本组合文本 - 图像检索

本文介绍了一个新方法，通过多模态信息的融合来准确地检索符合查询的图像，并在零样本场景下，在 CIRR 和 FashionIQ 等数据集上明显优于现有的最新技术。

Jun, 2023

多模式 LLMs 中的反向图像检索提示参数记忆

使用 Reverse Image Retrieval（RIR）辅助生成的简单而有效的策略，对于 GPT-4 系列等最先进的多模态大型语言模型（MLLM）来说，RIR 显著提高了知识密集型的视觉问答性能，通过开放式 VQA 评估指标，GPT-4V 提高 37-43％，GPT-4 Turbo 提高 25-27％，GPT-4o 提高 18-20％。

May, 2024

远程感知影像的知识感知文本 - 影像检索

通过使用外部知识图谱挖掘相关信息，我们提出了一种适用于遥感图像的知识感知文本 - 图像检索（KTIR）方法，该方法丰富了搜索查询中可用的文本范围，缓解了文本和图像之间的信息差距，实现更好的匹配。实验结果表明，该方法在遥感文本 - 图像检索中表现出优异的检索能力，超越了现有的最先进方法。

May, 2024