SPIQA: 一个供多模态科学论文问答使用的数据集

Jul, 2024

SPIQA: 一个供多模态科学论文问答使用的数据集

SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers

Shraman Pramanick, Rama Chellappa, Subhashini Venugopalan

TL;DR通过多模式大语言模型理解科学研究文章中的复杂图表、多样化的图示、图表和结果可视化，我们引入了SPIQA（Scientific Paper Image Question Answering），这是第一个专门设计用于解释科学研究文章中的复杂图表和表格的大规模问答数据集。

Abstract

Seeking answers to questions within long scientific research articles is a crucial area of study that aids readers in quickly addressing their inquiries. However, existing question-answering (QA) datasets based o

发现论文，激发创造

构建一个大规模的多模态知识库系统，以回答视觉查询

本研究提出了一种知识库框架，通过构建一个大规模的多模态知识库来回答各种视觉查询，同时保持灵活性和可扩展性。研究表明所提系统能够取得有竞争力的结果，并能够应对更丰富的视觉查询。

Jul, 2015

句子级TextGraphs的多跳推理：为科学问题回答有效地结合信息有多具有挑战性？

通过评估来自三个自由文本语料库的知识图构建的通过词汇重叠连接的句子的机会聚合质量的9,784个手动注释的判断，我们实证表征了构建或遍历图形的困难，表明语义漂移倾向于很高并且聚合质量很低，高亮最大化有意义地组合信息的情况。

May, 2018

MultiModalQA: 文本、表格和图像的复杂问答

本文介绍了一个名为“MultiModalQA(MMQA)”的数据集，该数据集需要通过对文本、表格和图像的联合推理来回答问题。作者还创建了一个新框架来生成复杂的多模态问题，并演示了多模态多跳方法在解决这一任务中的必要性。

Apr, 2021

学会阐述：基于思维链的多模态推理用于科学问答

利用多模态多选问题和对应的讲座和解释构建科学问题回答(ScienceQA)基准测试, 证明思路链在语言模型中的实用性, 并通过在GPT-3上实现18.96%的few-shot leap提高上界;证明与人类类似, 从解释中受益, 可以借少训练数据实现相同的性能

Sep, 2022

SciGraphQA：面向科学图表的大规模合成多轮问答数据集

本文介绍了SciGraphQA，这是一个与学术图表相关的合成多轮问答数据集，它是迄今为止最大的非合成图表视觉问答数据集，使用Palm-2从计算机科学和机器学习ArXiv论文中生成了295K个开放式多轮问答对话样本，并通过GPT-4评估了问题-回答的匹配质量。最后，通过利用从图表中提取的序列化数据表格和DePlot模型，使用LLaVA-13B进行了进一步的改进，最终的评估CIDEr为0.26。

Aug, 2023

SceMQA: 一项科学类高校入学水平的多模态问答基准

本文介绍了SceMQA，一种用于大学入学阶段的科学多模态问题回答的新型基准。它解决了现有基准中经常被忽视的关键教育阶段，涵盖了高中到预大学的水平。SceMQA专注于数学、物理、化学和生物等核心科学学科。它采用多项选择和自由回答的形式，确保对人工智能模型能力进行全面评估。此外，我们的基准为每个问题提供了特定的知识点和详细的解释。SceMQA还通过相同的背景但问题不同的方式，提供了更全面、准确的推理能力评估。在实验中，我们评估了开源和闭源的最先进多模态大语言模型（MLLM），在各种实验设置下进行了评估。结果显示，需要进一步研究和开发更强大的MLLM，因为最强模型仅达到50%到60%的准确率。我们的基准和分析将在此https URL上提供。

Feb, 2024

PDF-MVQA：基于PDF的视觉问答多模信息检索数据集

针对长篇研究期刊文章等富有文本内容的视觉丰富文档，我们提出了PDF-MVQA，旨在解决现有研究主要关注稀缺文本的现实世界文档的问题，而在理解多个页面之间的层次语义关系以定位多模态组件方面仍面临挑战。我们的贡献包括介绍了一个全面的PDF文档视觉问答数据集，用于研究文本主导文档中的语义层次布局结构。我们还提出了新的视觉丰富文档问答框架，同时考虑文档布局中的文本内容和关系，将页面级别理解扩展到整个多页文档。通过这项工作，我们旨在提高现有视觉和语言模型在处理视觉丰富文档视觉问答时的能力。

Apr, 2024

SciQAG: 自动生成科学问答数据集的框架及细粒度评估

通过从科学文献中提取的信息，利用科学问答对生成的自动评估框架 SciQAG 表明，大型语言模型可用于从文献中提取关键知识的高质量科学问答对。

May, 2024

cPAPERS:科学论文中的情境和多模态互动对话数据集

引入Conversational Papers (cPAPERS)数据集，该数据集基于论文组成部分及相关引用源文件，提供了科学论文中的交互式问答对，并介绍了使用基于大型语言模型（LLMs）的基准方法来处理cPAPERS数据集。

Jun, 2024

MMSci：一种用于博士级科学理解的多模态多学科数据集

通过收集自然通讯期刊中的开放获取科学文章，我们构建了一个多模态、多学科的数据集，对大型语言模型（LLM）和大型多模态模型（LMM）进行综合评估，结果表明这些模型在理解科学图表和内容方面面临极大挑战，并提出了基于视觉指令跟随数据的训练方法来改善性能。

Jul, 2024