一套盔甲能够导电吗？开放式问答的新数据集

Sep, 2018

一套盔甲能够导电吗？开放式问答的新数据集

Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering

Todor Mihaylov, Peter Clark, Tushar Khot, Ashish Sabharwal

TL;DR提出了一个新型问题回答数据集OpenBookQA，为评估人类对主题的理解而建模。与文档或知识库不同，OpenBookQA强调主题的深层理解，且包含更多来自不同来源的通用知识。在OpenBookQA上，人类表现接近92％，但许多最先进的预训练QA方法表现出乎意料的糟糕，不如几个简单的神经基线表现。

Abstract

We present a new kind of question answering dataset, openbookqa, modeled after open book exams for assessing human understanding of a subject. The open book that comes with our questions is a set of 1329

发现论文，激发创造

TriviaQA：一个大规模远程监督的挑战性阅读理解数据集

TriviaQA是一个具有挑战性的阅读理解数据集，包含超过650k个问题-答案-证据三元组，该数据集需要进行跨句子推理和包含看似复杂、组合式、句法和词汇变化巨大的问题，并提供了两种基线算法：基于特征的分类器和最先进的神经网络，它们在SQuAD阅读理解上表现良好，但都无法接近人类表现（23％和40％与80％），因此需要进一步的研究。

May, 2017

利用背景知识进行查询重写回答科学考试问题

本文针对ARCChallenge数据集的超越式难题提出了一种系统，该系统利用查询重写、背景知识和文本属于性，成功地提高了端到端QA任务的性能，并超越了几个强基线。

Sep, 2018

精选知识解决开放式书籍问答

本文研究基于自然语言的问题回答技术（NLQA）中的开放式书籍问题回答，并使用最先进的语言模型与信息检索技术以及排名和加权得分的方法，针对OpenBookQA数据集取得了72.0％的准确性，比目前最先进技术提高了11.6％。

Jul, 2019

图书问答中令人沮丧的证据检索

本研究探讨了如何在叙述式图书中进行开放域问题回答（QA）任务，揭示了书籍中的证据检索难度，并提出了解决方案。

Jul, 2020

表格与文本的开放式问题回答

该论文研究了开放式问答系统（QA）在同时检索结构化表格和非结构化文本数据时的困难之处，并提出了两种新技术以提高检索准确率，让模型的精确匹配得分提高至27%以上，这为该领域的未来研究提供了重要的参考价值。

Oct, 2020

采用尖端开放领域问答技术的叙述式问题回答：综合研究

本篇研究对开放领域问答(ODQA)与书籍问答(Book QA)之间的难度差异进行了全面且量化的分析，结合了先进的ODQA技术并在NarrativeQA数据集上进行了实验，对于现有QA模型在处理事件中心问题的局限性有进一步的人工研究，发现现有QA无法很好地处理以事件为本的场景，而本篇研究提出的一种新技术使得书籍问答的Rouge-L有约7% 的绝对改进。

Jun, 2021

学会阐述：基于思维链的多模态推理用于科学问答

利用多模态多选问题和对应的讲座和解释构建科学问题回答(ScienceQA)基准测试, 证明思路链在语言模型中的实用性, 并通过在GPT-3上实现18.96%的few-shot leap提高上界;证明与人类类似, 从解释中受益, 可以借少训练数据实现相同的性能

Sep, 2022

MaScQA：一个用于研究大型语言模型中材料科学知识的问答数据集

我们基于材料学领域的650个具有挑战性的问题，对GPT-3.5和GPT-4模型在问答、零点提示和思维链激励下的表现进行了评估，并发现GPT-4的准确率最高（约为62%），而与思维链激励相比，没有明显的准确率提高。通过错误分析，我们发现概念错误（64%）是改进语言模型表现的主要因素，而计算错误（36%）对LLMs性能的降低起到了次要作用。我们希望该工作中的数据集和分析能够促进材料科学领域特定LLMs的开发和信息提取策略的研究。

Aug, 2023

SceMQA: 一项科学类高校入学水平的多模态问答基准

本文介绍了SceMQA，一种用于大学入学阶段的科学多模态问题回答的新型基准。它解决了现有基准中经常被忽视的关键教育阶段，涵盖了高中到预大学的水平。SceMQA专注于数学、物理、化学和生物等核心科学学科。它采用多项选择和自由回答的形式，确保对人工智能模型能力进行全面评估。此外，我们的基准为每个问题提供了特定的知识点和详细的解释。SceMQA还通过相同的背景但问题不同的方式，提供了更全面、准确的推理能力评估。在实验中，我们评估了开源和闭源的最先进多模态大语言模型（MLLM），在各种实验设置下进行了评估。结果显示，需要进一步研究和开发更强大的MLLM，因为最强模型仅达到50%到60%的准确率。我们的基准和分析将在此https URL上提供。

Feb, 2024

SPIQA: 一个供多模态科学论文问答使用的数据集

通过多模式大语言模型理解科学研究文章中的复杂图表、多样化的图示、图表和结果可视化，我们引入了SPIQA（Scientific Paper Image Question Answering），这是第一个专门设计用于解释科学研究文章中的复杂图表和表格的大规模问答数据集。

Jul, 2024