MMSci:一种用于博士级科学理解的多模态多学科数据集
本研究提出了SciTune框架,通过调整Large Language Models,与科学学科,概念和目标相符合,提高LLMs的理解科学多模态指令的能力,并通过ScienceQA基准测试表明,与仅使用机器生成数据调整的模型相比,LLaMA-SciTune在各个子类别上均优于人类表现。
Jul, 2023
Multi是一种多模态大型语言模型(MLLMs)的先进基准测试,提供了综合数据集,用于评估MLLMs在理解复杂图表、科学问题等方面的表现,并挑战包括公式推导、图像细节分析和跨模态推理在内的多样任务。评估结果表明,MLLMs在Multi上取得了显著的进展,与其他MLLMs相比,GPT-4V的准确率达到了63.7%,Multi不仅是一个强大的评估平台,也为专家级AI的发展铺平了道路。
Feb, 2024
利用现有模型对多步骤物理推理任务进行评估,通过引入多模态元素的高中级别物理问题的新数据集MM-PhyQA,测试了包括GPT-4和LLaVA在内的多个大型语言模型的性能,并展示了基于MI-CoT提示技术的LLaVA-1.5 13b模型在测试集上的最佳结果,具有最高的71.65%准确率。
Apr, 2024
SciFIBench是一个科学图表解释的基准测试,评估了26个大型多模态模型在理解和解释图表方面的能力,并探究了模型在拓展问题集上的对齐和推理准确性。
May, 2024
SciRIFF是一份包含137K个54项任务的指示跟随演示的科学资源,涵盖了信息提取、摘要、问题回答、声明验证和分类等五个必要的科学文献理解能力,其长输入上下文、详细任务规范和复杂的结构化输出使其成为瞩目的资源。通过在一般领域和SciRIFF演示的混合数据上进行进一步微调,我们使用SciRIFF展示了一个在科学领域上适应的样本高效策略,开发出被称为SciTulu的模型,在九个科学任务的评估中,相对于强基准模型,它在7B和70B尺度上分别提高了28.1%和6.5%,同时保持了基线模型与一般指示跟随性能的2%之内。我们希望SciRIFF能促进LMM的发展和评估,帮助研究人员了解不断增长的科学文献资料。我们发布了数据集、模型检查点以及数据处理和评估代码来促进进一步的研究。
Jun, 2024
大型语言模型(LLMs)在科学研究中的广泛应用需要先进的评估标准来全面评估它们对科学知识的理解和应用。为了解决这个问题,我们引入了SciKnowEval基准,这是一个新颖的框架,从五个渐进的科学知识水平对LLMs进行系统评估:广泛学习、认真探究、深入思考、清晰辨别和勤奋实践。这些水平旨在评估LLMs的科学知识的广度和深度,包括知识覆盖、探索能力、反思和推理能力、伦理和安全考量以及实践熟练性。我们以生物学和化学为SciKnowEval的两个示例,并构建了一个包含50,000个多层次科学问题和解决方案的数据集。通过利用这个数据集,我们使用零提示和少量提示策略对20个领先的开源和专有LLMs进行了评估。结果显示,尽管取得了最先进的性能,专有的LLMs在解决科学计算和应用方面仍有相当大的改进空间。我们预计SciKnowEval将建立一个全面的标准来评估科学研究和发现中的LLMs,并促进将科学知识与强大的安全意识融入LLMs的发展。数据集和代码可在此https URL上公开获取。
Jun, 2024
该研究对250个科学领域的大型语言模型进行了全面调研,揭示了它们在架构和预训练技术上的交叉领域和跨模态连接,并总结了每个领域和模态的预训练数据集和评估任务。此外,还研究了大型语言模型在科学发现中的应用。
Jun, 2024
该研究介绍了MM-Instruct,这是一个大规模、多样化和高质量的视觉指导数据集,旨在增强大型多模态模型(LMMs)的指令跟随能力,并通过使用现有的LLMs从大规模图像字幕数据集生成新的视觉指导数据,并介绍了一个基于生成的指导数据来评估现有LMMs的指令跟随能力的基准。
Jun, 2024
通过多模式大语言模型理解科学研究文章中的复杂图表、多样化的图示、图表和结果可视化,我们引入了SPIQA(Scientific Paper Image Question Answering),这是第一个专门设计用于解释科学研究文章中的复杂图表和表格的大规模问答数据集。
Jul, 2024
本研究解决了大型语言模型(LLMs)在解读各种数据可视化(如时间序列、直方图等)中的能力不足的问题。通过构建一个新颖的合成数据集并使用多模态文本提示评估多种先进模型,研究展示了LLMs识别和理解视觉数据的能力,揭示出其在不同视觉数据解释方面的优缺点,从而为未来的研究提供了基础基准。
Sep, 2024