评估问题的知识依赖性
我们使用 GPT-4 为高等教育课程中的化学和电子学习的多项选择题生成知识组件 (KCs),并通过三名领域专家的评估,分析了大型语言模型 (LLM) 生成的 KCs 与人工生成的 KCs 之间的差异。评估结果显示,非匹配的 KCs 中,评估者有统计显著性地倾向于选择 LLM 生成的 KCs。我们还开发了一个本体归纳算法,根据题目内容将评估相似 KCs 的问题进行聚类。该研究推进了自动化生成和分类评估项目中的 KC,减轻了对学生数据或预定义 KC 标签的需求。
May, 2024
本研究提出了一种知识辅助的开放域问答方法,通过考虑问题与文档之间的关系以及文档与文档之间的关系来构建问题 - 文档图和文档 - 文档图,使用知识三元组并结合文档检索和答案重新排名来提高文档检索和答案排序的性能,从而提高了开放域问答的整体性能。
Jun, 2020
本文提出一种多选题智能生成系统,利用预训练的语言模型,根据规定的性能指标,通过读取理解语料库来生成语法准确,具有可回答性、多样性和复杂性的问题及选项。
Sep, 2022
本研究提出了一种基于提示的回答可行性度量(PMAN),它是一种新颖的自动评估度量,用于评估生成的问题是否可由参考答案回答,以解决复杂任务如问题生成所面临的评估问题。通过广泛的实验,证明了其评估结果可靠且与人类评估一致。我们还将该度量应用于评估问题生成模型的性能,结果表明该度量与传统度量相辅相成。我们基于 ChatGPT 的问题生成模型达到了最先进的性能。
Sep, 2023
Evaluating multiple-choice questions often overlooks deeper question design flaws, but the SAQUET tool effectively automates the assessment process using large language models, word embeddings, and Transformers, achieving a high accuracy rate in detecting flaws and showcasing potential for improving educational assessments.
May, 2024
本研究旨在探索如何利用已有的误选项,结合上下文特征,协助老师更有效地创建新的多项选择题 (MCQs)。我们评估了多种基于数据和上下文的模型,结果表明,上下文感知模型在正确地创造质量高的误选项方面,明显优于传统特征模型。最佳表现的模型中,平均 10 个选项中会有 3 个选项被评为高质量误选项。此外,我们还创建了一个性能基准,提供了 298 道涵盖多个学科和语言的教育问题的测试题目,以及一个 77K 的多语言误选项的词汇量池,以供未来的研究使用。
Oct, 2022
通过集中于围绕问题上下文的改述,我们的工作提供了一种高数据获取成本情景下进行多项选择题生成的初始尝试,这是通过使用仅预训练模型构成的 pipeline AGenT Zero,该方法不需要 fine-tuning,最大限度地减少了问题生成的数据获取成本。同时,我们的评估流程还可推广到更广泛的问题和答案范围内。
Nov, 2020
本研究提出一种针对知识图谱(如 DBpedia)自动生成知识问题的方法,通过使用端到端的方法,包括实体选择、三元组查询、答案选择和自然语言问句生成,并使用历史数据和训练分类器来估计问题难度。最后的实验证明了这种方法的可行性。
Oct, 2016
本研究提出了一种新的度量模型 KPQA-metric,通过关键词预测为不同的令牌分配不同的权重评估生成的回答,用于评估生成式问答系统的正确性,并通过人类评估数据集表明,KPQA-metric 与现有度量模型具有更高的相关性。
May, 2020
使用大型语言模型,本研究探索了数学多项选择题中自动生成干扰项和相应反馈信息的任务,并通过非标准指标对生成的干扰项和反馈信息进行了评估,结果显示自动化干扰项和反馈生成方面仍有提升空间,并提出了几个未来研究的方向。
Aug, 2023