评估问题的知识依赖性

EMNLPNov, 2022

Evaluating the Knowledge Dependency of Questions

Hyeongdon Moon, Yoonseok Yang, Jamin Shin, Hangyeol Yu, Seunghyun Lee...

TL;DR该研究提出了一种新的自动评估指标，称为知识相关可回答性（KDA），该指标可以衡量多项选择题的可回答程度，提高了现有的评估模型，使其不仅基于生成题目与样本的相似度，而且考虑了评估题目对应知识点能力的能力，从而可以更好地评估评估题目。

Abstract

The automatic generation of multiple choice questions (MCQ) has the potential to reduce the time educators spend on student assessment significantly. However, existing →

automatic generation multiple choice questions evaluation metrics knowledge dependent answerability pre-trained language models

发现论文，激发创造

多选题自动生成和标记的知识组件

我们使用 GPT-4 为高等教育课程中的化学和电子学习的多项选择题生成知识组件 (KCs)，并通过三名领域专家的评估，分析了大型语言模型 (LLM) 生成的 KCs 与人工生成的 KCs 之间的差异。评估结果显示，非匹配的 KCs 中，评估者有统计显著性地倾向于选择 LLM 生成的 KCs。我们还开发了一个本体归纳算法，根据题目内容将评估相似 KCs 的问题进行聚类。该研究推进了自动化生成和分类评估项目中的 KC，减轻了对学生数据或预定义 KC 标签的需求。

May, 2024

基于知识的开放域问答

本研究提出了一种知识辅助的开放域问答方法，通过考虑问题与文档之间的关系以及文档与文档之间的关系来构建问题 - 文档图和文档 - 文档图，使用知识三元组并结合文档检索和答案重新排名来提高文档检索和答案排序的性能，从而提高了开放域问答的整体性能。

Jun, 2020

多项选择题生成：面向自动化评估框架的发展

本文提出一种多选题智能生成系统，利用预训练的语言模型，根据规定的性能指标，通过读取理解语料库来生成语法准确，具有可回答性、多样性和复杂性的问题及选项。

Sep, 2022

自动问答可回答性评估

本研究提出了一种基于提示的回答可行性度量（PMAN），它是一种新颖的自动评估度量，用于评估生成的问题是否可由参考答案回答，以解决复杂任务如问题生成所面临的评估问题。通过广泛的实验，证明了其评估结果可靠且与人类评估一致。我们还将该度量应用于评估问题生成模型的性能，结果表明该度量与传统度量相辅相成。我们基于 ChatGPT 的问题生成模型达到了最先进的性能。

Sep, 2023

自动问卷可用性评估工具

Evaluating multiple-choice questions often overlooks deeper question design flaws, but the SAQUET tool effectively automates the assessment process using large language models, word embeddings, and Transformers, achieving a high accuracy rate in detecting flaws and showcasing potential for improving educational assessments.

May, 2024

在教育中学习重复使用干扰选项以支持多项选择题生成

本研究旨在探索如何利用已有的误选项，结合上下文特征，协助老师更有效地创建新的多项选择题 (MCQs)。我们评估了多种基于数据和上下文的模型，结果表明，上下文感知模型在正确地创造质量高的误选项方面，明显优于传统特征模型。最佳表现的模型中，平均 10 个选项中会有 3 个选项被评为高质量误选项。此外，我们还创建了一个性能基准，提供了 298 道涵盖多个学科和语言的教育问题的测试题目，以及一个 77K 的多语言误选项的词汇量池，以供未来的研究使用。

Oct, 2022

AGenT Zero: 技能评估零样本自动生成多项选择题

通过集中于围绕问题上下文的改述，我们的工作提供了一种高数据获取成本情景下进行多项选择题生成的初始尝试，这是通过使用仅预训练模型构成的 pipeline AGenT Zero，该方法不需要 fine-tuning，最大限度地减少了问题生成的数据获取成本。同时，我们的评估流程还可推广到更广泛的问题和答案范围内。

Nov, 2020

从知识图谱中得出的知识问题

本研究提出一种针对知识图谱（如 DBpedia）自动生成知识问题的方法，通过使用端到端的方法，包括实体选择、三元组查询、答案选择和自然语言问句生成，并使用历史数据和训练分类器来估计问题难度。最后的实验证明了这种方法的可行性。

Oct, 2016

使用关键词权重的生成式问答度量 KPQA

本研究提出了一种新的度量模型 KPQA-metric，通过关键词预测为不同的令牌分配不同的权重评估生成的回答，用于评估生成式问答系统的正确性，并通过人类评估数据集表明，KPQA-metric 与现有度量模型具有更高的相关性。

May, 2020

通过上下文学习探索数学多项选择题的自动干扰项和反馈生成

使用大型语言模型，本研究探索了数学多项选择题中自动生成干扰项和相应反馈信息的任务，并通过非标准指标对生成的干扰项和反馈信息进行了评估，结果显示自动化干扰项和反馈生成方面仍有提升空间，并提出了几个未来研究的方向。

Aug, 2023