SPIQA: 一个供多模态科学论文问答使用的数据集
本研究提出了一种知识库框架,通过构建一个大规模的多模态知识库来回答各种视觉查询,同时保持灵活性和可扩展性。研究表明所提系统能够取得有竞争力的结果,并能够应对更丰富的视觉查询。
Jul, 2015
通过评估来自三个自由文本语料库的知识图构建的通过词汇重叠连接的句子的机会聚合质量的9,784个手动注释的判断,我们实证表征了构建或遍历图形的困难,表明语义漂移倾向于很高并且聚合质量很低,高亮最大化有意义地组合信息的情况。
May, 2018
本文介绍了一个名为“MultiModalQA(MMQA)”的数据集,该数据集需要通过对文本、表格和图像的联合推理来回答问题。作者还创建了一个新框架来生成复杂的多模态问题,并演示了多模态多跳方法在解决这一任务中的必要性。
Apr, 2021
利用多模态多选问题和对应的讲座和解释构建科学问题回答(ScienceQA)基准测试, 证明思路链在语言模型中的实用性, 并通过在GPT-3上实现18.96%的few-shot leap提高上界;证明与人类类似, 从解释中受益, 可以借少训练数据实现相同的性能
Sep, 2022
本文介绍了SciGraphQA,这是一个与学术图表相关的合成多轮问答数据集,它是迄今为止最大的非合成图表视觉问答数据集,使用Palm-2从计算机科学和机器学习ArXiv论文中生成了295K个开放式多轮问答对话样本,并通过GPT-4评估了问题-回答的匹配质量。最后,通过利用从图表中提取的序列化数据表格和DePlot模型,使用LLaVA-13B进行了进一步的改进,最终的评估CIDEr为0.26。
Aug, 2023
本文介绍了SceMQA,一种用于大学入学阶段的科学多模态问题回答的新型基准。它解决了现有基准中经常被忽视的关键教育阶段,涵盖了高中到预大学的水平。SceMQA专注于数学、物理、化学和生物等核心科学学科。它采用多项选择和自由回答的形式,确保对人工智能模型能力进行全面评估。此外,我们的基准为每个问题提供了特定的知识点和详细的解释。SceMQA还通过相同的背景但问题不同的方式,提供了更全面、准确的推理能力评估。在实验中,我们评估了开源和闭源的最先进多模态大语言模型(MLLM),在各种实验设置下进行了评估。结果显示,需要进一步研究和开发更强大的MLLM,因为最强模型仅达到50%到60%的准确率。我们的基准和分析将在此https URL上提供。
Feb, 2024
针对长篇研究期刊文章等富有文本内容的视觉丰富文档,我们提出了PDF-MVQA,旨在解决现有研究主要关注稀缺文本的现实世界文档的问题,而在理解多个页面之间的层次语义关系以定位多模态组件方面仍面临挑战。我们的贡献包括介绍了一个全面的PDF文档视觉问答数据集,用于研究文本主导文档中的语义层次布局结构。我们还提出了新的视觉丰富文档问答框架,同时考虑文档布局中的文本内容和关系,将页面级别理解扩展到整个多页文档。通过这项工作,我们旨在提高现有视觉和语言模型在处理视觉丰富文档视觉问答时的能力。
Apr, 2024
通过从科学文献中提取的信息,利用科学问答对生成的自动评估框架 SciQAG 表明,大型语言模型可用于从文献中提取关键知识的高质量科学问答对。
May, 2024
引入Conversational Papers (cPAPERS)数据集,该数据集基于论文组成部分及相关引用源文件,提供了科学论文中的交互式问答对,并介绍了使用基于大型语言模型(LLMs)的基准方法来处理cPAPERS数据集。
Jun, 2024
通过收集自然通讯期刊中的开放获取科学文章,我们构建了一个多模态、多学科的数据集,对大型语言模型(LLM)和大型多模态模型(LMM)进行综合评估,结果表明这些模型在理解科学图表和内容方面面临极大挑战,并提出了基于视觉指令跟随数据的训练方法来改善性能。
Jul, 2024