EduQG: 面向教育领域的多种格式多选数据集
本文提出一种新的方法来从众包工作者那里获得高质量、针对领域的多项选择题,该方法通过利用大量的领域特定文本和一小部分现有问题,产生文档选择和答案干扰选项的模型建议,辅助人类提问生成过程。使用这种方法,我们已经组装了 13.7K 的多项选择科学考试题的 SciQ 数据集,并通过提供对这个新数据集的分析和展示人们无法区分众包问题与原问题,证明了这种方法可以产生领域内的问题。当将 SciQ 用作现有问题的附加训练数据时,在真实科学考试中观察到了准确度的提高。
Jul, 2017
我们提供了一个名为 NewsQs (新闻提示) 的数据集,其中提供了多篇新闻文档的问题 - 回答对。通过在 News On the Web 语料库的 FAQ 样式新闻文章上对 T5-Large 模型进行微调,我们创造了 NewsQs,并自动生成了问题。我们证明,使用控制代码对模型进行微调可以生成更容易被人们接受的问题,与没有使用控制代码的相同模型相比,在人类评价中表现更好。我们使用与人类注释具有高相关性的 QNLI 模型来过滤数据。我们将我们的最终高质量问题、答案和文档聚类数据集作为资源,用于未来的基于查询的多文档摘要研究。
Feb, 2024
TriviaQA 是一个具有挑战性的阅读理解数据集,包含超过 650k 个问题 - 答案 - 证据三元组,该数据集需要进行跨句子推理和包含看似复杂、组合式、句法和词汇变化巨大的问题,并提供了两种基线算法:基于特征的分类器和最先进的神经网络,它们在 SQuAD 阅读理解上表现良好,但都无法接近人类表现(23%和 40%与 80%),因此需要进一步的研究。
May, 2017
本研究旨在探索如何利用已有的误选项,结合上下文特征,协助老师更有效地创建新的多项选择题 (MCQs)。我们评估了多种基于数据和上下文的模型,结果表明,上下文感知模型在正确地创造质量高的误选项方面,明显优于传统特征模型。最佳表现的模型中,平均 10 个选项中会有 3 个选项被评为高质量误选项。此外,我们还创建了一个性能基准,提供了 298 道涵盖多个学科和语言的教育问题的测试题目,以及一个 77K 的多语言误选项的词汇量池,以供未来的研究使用。
Oct, 2022
MedMCQA 是一个新的大型多项选择题答题数据集,收集了超过 194,000 个高质量的 AIIMS 和 NEET PG 考试的 MCQs,涵盖 2,400 多个医疗主题和 21 个医学科目,并测试模型在广泛的医学主题和话题上的 10 + 种推理能力。
Mar, 2022
本文调查了英文多项选择题数据集中与干扰项生成任务相关的文本和多模态语境,对近期有关干扰项生成任务的研究进行了全面的文献综述,讨论了多项选择题组成部分及其特点,分析了相关数据集,并总结了干扰项生成的评估指标。调查结果显示,超过一半的数据集来自科学和英语等特定领域的教育来源,主要以文本为基础,缺乏开放域和多模态的数据集。
Feb, 2024
研究跨语言建模的进展取决于具有挑战性、真实性和多样性的评估集。本文提出了一种开放领域的问题回答评估集 “Multilingual Knowledge Questions and Answers”(MKQA),包括 10k 个问题 - 答案对,跨越 26 种语言(总计 260k 个问题 - 答案对)。结果表明,即使在英语中,这个数据集也具有挑战性,尤其是在低资源语言中。
Jul, 2020
使用机器翻译将现有数据集转化为 Tigrinya 数据集,构建了 TIGQA 专家注释的教育数据集,通过综合分析展示了 TIGQA 数据集需要单句和多句推理能力,使用最先进的 MRC 方法进行了实验,并与人类表现进行对比,结果强调了对 TIGQA 的进一步研究增强的潜力。
Apr, 2024
该论文介绍了 FrenchMedMCQA,即用于医学领域的多项选择问答(MCQA)的首个公开数据集,其中包含从法国药学专业毕业考试中提取的 3105 个问题,使用单选和多选题混合,提供基线模型以自动处理此 MCQA 任务。
Apr, 2023
为了增加推理能力,我们通过四个阶段的过程收集有超过 10,000 篇 CNN 新闻文章的人类生成的问题 - 答案对的数据集 NewsQA,该数据集超过 100,000 个 QA 对,由众包工人提供,答案包含想对应文章的文本内容片段。人类的表现比现有神经模型的性能更好,这表明未来的研究可以在 NewsQA 上取得显著的进展。
Nov, 2016