一套盔甲能够导电吗?开放式问答的新数据集
TriviaQA是一个具有挑战性的阅读理解数据集,包含超过650k个问题-答案-证据三元组,该数据集需要进行跨句子推理和包含看似复杂、组合式、句法和词汇变化巨大的问题,并提供了两种基线算法:基于特征的分类器和最先进的神经网络,它们在SQuAD阅读理解上表现良好,但都无法接近人类表现(23%和40%与80%),因此需要进一步的研究。
May, 2017
本文针对ARCChallenge数据集的超越式难题提出了一种系统,该系统利用查询重写、背景知识和文本属于性,成功地提高了端到端QA任务的性能,并超越了几个强基线。
Sep, 2018
本文研究基于自然语言的问题回答技术(NLQA)中的开放式书籍问题回答,并使用最先进的语言模型与信息检索技术以及排名和加权得分的方法,针对OpenBookQA数据集取得了72.0%的准确性,比目前最先进技术提高了11.6%。
Jul, 2019
该论文研究了开放式问答系统(QA)在同时检索结构化表格和非结构化文本数据时的困难之处,并提出了两种新技术以提高检索准确率,让模型的精确匹配得分提高至27%以上,这为该领域的未来研究提供了重要的参考价值。
Oct, 2020
本篇研究对开放领域问答(ODQA)与书籍问答(Book QA)之间的难度差异进行了全面且量化的分析,结合了先进的ODQA技术并在NarrativeQA数据集上进行了实验,对于现有QA模型在处理事件中心问题的局限性有进一步的人工研究,发现现有QA无法很好地处理以事件为本的场景,而本篇研究提出的一种新技术使得书籍问答的Rouge-L有约7% 的绝对改进。
Jun, 2021
利用多模态多选问题和对应的讲座和解释构建科学问题回答(ScienceQA)基准测试, 证明思路链在语言模型中的实用性, 并通过在GPT-3上实现18.96%的few-shot leap提高上界;证明与人类类似, 从解释中受益, 可以借少训练数据实现相同的性能
Sep, 2022
我们基于材料学领域的650个具有挑战性的问题,对GPT-3.5和GPT-4模型在问答、零点提示和思维链激励下的表现进行了评估,并发现GPT-4的准确率最高(约为62%),而与思维链激励相比,没有明显的准确率提高。通过错误分析,我们发现概念错误(64%)是改进语言模型表现的主要因素,而计算错误(36%)对LLMs性能的降低起到了次要作用。我们希望该工作中的数据集和分析能够促进材料科学领域特定LLMs的开发和信息提取策略的研究。
Aug, 2023
本文介绍了SceMQA,一种用于大学入学阶段的科学多模态问题回答的新型基准。它解决了现有基准中经常被忽视的关键教育阶段,涵盖了高中到预大学的水平。SceMQA专注于数学、物理、化学和生物等核心科学学科。它采用多项选择和自由回答的形式,确保对人工智能模型能力进行全面评估。此外,我们的基准为每个问题提供了特定的知识点和详细的解释。SceMQA还通过相同的背景但问题不同的方式,提供了更全面、准确的推理能力评估。在实验中,我们评估了开源和闭源的最先进多模态大语言模型(MLLM),在各种实验设置下进行了评估。结果显示,需要进一步研究和开发更强大的MLLM,因为最强模型仅达到50%到60%的准确率。我们的基准和分析将在此https URL上提供。
Feb, 2024
通过多模式大语言模型理解科学研究文章中的复杂图表、多样化的图示、图表和结果可视化,我们引入了SPIQA(Scientific Paper Image Question Answering),这是第一个专门设计用于解释科学研究文章中的复杂图表和表格的大规模问答数据集。
Jul, 2024