EduQG: 面向教育领域的多种格式多选数据集

Oct, 2022

EduQG: 面向教育领域的多种格式多选数据集

EduQG: A Multi-format Multiple Choice Dataset for the Educational Domain

Amir Hadifar, Semere Kiros Bitew, Johannes Deleu, Chris Develder, Thomas Demeester

TL;DR本研究介绍了一个高质量的包含3397个样本的数据集，其中包含多项选择题、答案（包括干扰项）以及其来源文档，可用于问题与干扰项的生成以及探索新的挑战，同时伴随着 Bloom 的认知复杂性水平。所有问题均由专业人员生成以确保其符合教育及学习标准，该数据集对于教育域的研究和评估具有重要价值。

Abstract

We introduce a high-quality dataset that contains 3,397 samples comprising (i) multiple choice questions, (ii) answers (including distractors), and (iii) their source documents, from the →

发现论文，激发创造

多级多类别科学多选考试问题分类

研究使用细粒度分层分类法的最大挑战数据集，与基于BERT模型的算法相比，可以大大提高问题分类的准确度以及进一步改善问题回答系统的性能。

Aug, 2019

多项选择题生成：面向自动化评估框架的发展

本文提出一种多选题智能生成系统，利用预训练的语言模型，根据规定的性能指标，通过读取理解语料库来生成语法准确，具有可回答性、多样性和复杂性的问题及选项。

Sep, 2022

在教育中学习重复使用干扰选项以支持多项选择题生成

本研究旨在探索如何利用已有的误选项，结合上下文特征，协助老师更有效地创建新的多项选择题(MCQs)。我们评估了多种基于数据和上下文的模型，结果表明，上下文感知模型在正确地创造质量高的误选项方面，明显优于传统特征模型。最佳表现的模型中，平均10个选项中会有3个选项被评为高质量误选项。此外，我们还创建了一个性能基准，提供了298道涵盖多个学科和语言的教育问题的测试题目，以及一个77K的多语言误选项的词汇量池，以供未来的研究使用。

Oct, 2022

大型语言模型生成的教育问题有多有用？

通过人工评估，控制型文本生成与问题分类法相结合生成的高质量、多样化问题，被认为对教师和学生的教学内容质量有较大的提升作用，具有在教学环境中广泛使用的潜力。

Apr, 2023

使用预训练语言模型实现可扩展的教育问题生成

本研究开发了一个基于语言模型的教育问题生成模型，通过在科学文本和科学问题数据上进行进一步的预训练和微调，能够生成优质的教育问题，从而在自我评估和在线教育方面具有重要的应用潜力。

May, 2023

使用 GPT-4 和基于规则的方法评估多项选择题的质量

本研究采用基于规则和基于GPT-4的基于机器学习方法评估了200个学生生成的多项选择题目中19个常见选项撰写错误。结果显示基于规则的方法可以更准确，更高效地评估多个学科领域的选择题，并在教育使用方面具有潜在校准的作用。

Jul, 2023

通过上下文学习探索数学多项选择题的自动干扰项和反馈生成

使用大型语言模型，本研究探索了数学多项选择题中自动生成干扰项和相应反馈信息的任务，并通过非标准指标对生成的干扰项和反馈信息进行了评估，结果显示自动化干扰项和反馈生成方面仍有提升空间，并提出了几个未来研究的方向。

Aug, 2023

利用基于提示的技术来生成学校级问题的大型语言模型的力量

利用基于提示的技术生成描述性和推理性问题是一个具有挑战性和耗时的任务。本研究提出了一种新方法，利用基于提示的技术生成描述性和推理性问题。我们通过精选的NCERT教科书的丰富内容，创建了一个名为EduProbe的新的问题生成数据集。我们针对此数据集调查了几种基于提示的问题生成方法，并使用预训练的大型语言模型进行了微调。通过自动评估，我们发现T5（使用长提示）表现优于其他模型，但仍然低于人类基准。在人类评估标准下，TextDavinci-003通常在各种提示设置下表现更好。即使在人类评估标准下，问题生成模型也大多低于人类基准。

Dec, 2023

生成干扰项来提高多项选择题的准确性：方法、数据集和评估的综述

本文调查了英文多项选择题数据集中与干扰项生成任务相关的文本和多模态语境，对近期有关干扰项生成任务的研究进行了全面的文献综述，讨论了多项选择题组成部分及其特点，分析了相关数据集，并总结了干扰项生成的评估指标。调查结果显示，超过一半的数据集来自科学和英语等特定领域的教育来源，主要以文本为基础，缺乏开放域和多模态的数据集。

Feb, 2024

使用大型语言模型在不同布卢姆技能水平下自动生成教育问题：策略与评估

该研究针对教育者在生成高质量教育问题时面临的挑战，提出了一种利用大型语言模型（LLMs）实现自动化生成教育问题的新方法。研究表明，采用适当的信息提示，LLMs能够生成符合不同认知水平的相关且高质量的问题，同时表现出LLMs在能力上的显著差异，并且发现自动评估无法与人工评估相媲美。

Aug, 2024