通过大型语言模型探索数学多项选择题的自动生成方式

ACLApr, 2024

通过大型语言模型探索数学多项选择题的自动生成方式

Exploring Automated Distractor Generation for Math Multiple-choice Questions via Large Language Models

Wanyong Feng, Jaewook Lee, Hunter McNichols, Alexander Scarlatos, Digory Smith...

TL;DR研究了基于大型语言模型的自动生成干扰项的任务，发现虽然大型语言模型能生成一些数学上有效的干扰项，但它们对于预测真实学生常见的错误或误解的能力较弱。

Abstract

multiple-choice questions (mcqs) are ubiquitous in almost all levels of education since they are easy to administer, grade, and are a reliable format in assessments and practices. One of the most important aspect

multiple-choice questions mcqs distractors automated distractor generation large language model

发现论文，激发创造

通过上下文学习探索数学多项选择题的自动干扰项和反馈生成

使用大型语言模型，本研究探索了数学多项选择题中自动生成干扰项和相应反馈信息的任务，并通过非标准指标对生成的干扰项和反馈信息进行了评估，结果显示自动化干扰项和反馈生成方面仍有提升空间，并提出了几个未来研究的方向。

Aug, 2023

在教育中学习重复使用干扰选项以支持多项选择题生成

本研究旨在探索如何利用已有的误选项，结合上下文特征，协助老师更有效地创建新的多项选择题 (MCQs)。我们评估了多种基于数据和上下文的模型，结果表明，上下文感知模型在正确地创造质量高的误选项方面，明显优于传统特征模型。最佳表现的模型中，平均 10 个选项中会有 3 个选项被评为高质量误选项。此外，我们还创建了一个性能基准，提供了 298 道涵盖多个学科和语言的教育问题的测试题目，以及一个 77K 的多语言误选项的词汇量池，以供未来的研究使用。

Oct, 2022

数学多项选择题生成：人类 - 大型语言模型协同

本文介绍了一个原型工具，旨在促进语言模型与教育工作者的合作，以简化数学多项选择题生成过程。我们进行了一项试点研究，涉及数学教育工作者，以调查该工具如何帮助他们简化高质量的数学多项选择题的制作过程。研究发现，虽然语言模型能够生成良好形式的问题提示，但其生成的干扰项无法涵盖常见的学生错误和误解。尽管如此，人工智能与人类的合作有潜力提高多项选择题生成的效率和有效性。

May, 2024

利用预测提示和大型语言模型生成多项选择题干扰项

通过从题库自动检索题目并将其用作合适的上下文示例，本研究提出了一种引导 ChatGPT 等大型语言模型生成相关干扰项的策略，通过对现有测试集进行数量评估和教师质量评注，我们发现教师评价中有 53% 的生成干扰项被评为高质量，即可立即使用，优于最先进的模型，与零样本 ChatGPT 和少样本 ChatGPT 通过静态示例进行比较，显示了我们方法在生成高质量干扰项方面的优势。

Jul, 2023

使用超生成与评级提升数学多项选择题自动生成的效果

通过过度生成和排名方法，我们提出了一种新的方法来提高生成干扰项的质量，训练一个排名模型来预测干扰项被真实学生选择的可能性。在真实数据集上的实验结果和与数学教师的人工评估显示，我们的排名模型与人工编写的干扰项的一致性增加，尽管人工编写的干扰项仍然优于生成的干扰项。

Apr, 2024

标准测试中的多项选择题自动生成干扰项

本文提出 EDGE 自动化分心器的生成方法通过门控层和注意力机制控制分心器的正确性和可信度，取得了显著优于现有模型的新的最先进水平。

Nov, 2020

生成干扰项来提高多项选择题的准确性：方法、数据集和评估的综述

本文调查了英文多项选择题数据集中与干扰项生成任务相关的文本和多模态语境，对近期有关干扰项生成任务的研究进行了全面的文献综述，讨论了多项选择题组成部分及其特点，分析了相关数据集，并总结了干扰项生成的评估指标。调查结果显示，超过一半的数据集来自科学和英语等特定领域的教育来源，主要以文本为基础，缺乏开放域和多模态的数据集。

Feb, 2024

DISTO：基于负采样的多项选择题文本干扰项评估方法

提出一种针对生成干扰项的评价模型 ——DISTO，相比于用于干扰项评价的机器翻译指标，验证 DISTO 标准更加符合人体感知，同时，DISTO 的排名表明 MT 指标不应用于干扰项评价。

Apr, 2023

多项选择测试中的干扰项评估

对多选阅读理解测试中干扰项的质量进行自动评估，包括错误性、可信度和多样性的度量。

Nov, 2023

多选题是否能够有效地检测 LLM 的能力？

在这篇论文中，我们评估了九个大语言模型在两种语言（中文和英文）的四个问答数据集上的表现，发现大语言模型在双语的多选题中存在一种顺序敏感性，竞争第一位置的选项更容易被选择，与此同时我们提出了两种衡量大语言模型输出一致性和置信度的方法，并发现多选题相较长篇生成题在一致性和预期校准误差方面较不可靠。

Mar, 2024