基于 PLM 的替代模型在 IRT 评估中控制填空测试题目的难度
本文通过探索预训练语言模型(PLMs)的应用作为备选项干扰项生成的替代方案,研究了填空干扰项的自动生成。实验证明,PLM 增强模型显著提高了性能,最佳模型使得 NDCG@10 得分从 14.94 提升至 34.17。我们的代码和数据集可在此链接中找到。
Mar, 2024
本研究通过大型语言模型(LLM)的数据增强方法,预测 BEA 2024 共享任务中退休的 USMLE 多项选择题(MCQs)的题目难度和答题时间。我们的方法是通过从零样本 LLM(Falcon,Meditron,Mistral)中添加答案来增强数据集,并使用基于六种不同特征组合的变压器模型。结果表明,预测问题的难度更具挑战性。值得注意的是,我们表现最佳的方法始终包括问题文本,并受益于 LLM 答案的多样性,突显了 LLM 在医疗执照考试自动评估中的潜力。我们将代码提供在此 https URL。
Apr, 2024
该研究系统比较了多个选择题语言模型的不同预测方法,包括根据生成的回答进行评分、基于概率的得分方法、李克特量表风格的评分方法和嵌入相似度。通过对实用语言解释的案例研究发现,语言模型的预测结果在方法选择的变化下不具有稳健性,无论是在单个语言模型内部还是在不同语言模型之间。由于这种变异性导致研究人员在报告结果时存在显著的自由度,了解这种变异性对于确保结果的稳健性和研究诚信至关重要。
Mar, 2024
提出透过关注问题难度和概念难度级别来增强知识追踪模型性能的新技术,困难层面的重要性鲜明,然而先前的知识追踪研究未能利用其在模型优化上的潜力并且在未知数据中预测困难量存在困难。为解决这些问题,提出了一种面向困难层面的对比学习方法,以及基于大型语言模型的困难量预测框架。这些创新方法旨在提高知识追踪模型性能并为未知数据提供准确的困难量估计。消融研究证明了这些技术的有效性,并强化了知识追踪模型的性能。然而,语言和困难之间的复杂关系还需要进一步研究。
Dec, 2023
该研究论文提出了一种新的方法来生成 C-Tests,它是一种 cloze 测试的变体,在这里只有单词的最后一部分变成了间隙。与以往只考虑变化间隙大小或间隙位置以获得局部最优解的方法相比,我们提出了一种混合整数规划(MIP)方法。这使我们能够同时考虑间隙大小和位置,实现全局最优解,并直接将最先进的间隙难度预测模型集成到优化问题中。通过与四种 C-Test 生成策略(包括 GPT-4)的 40 名参与者的用户研究,我们发现我们的方法(MIP)明显优于两种基准策略(基于间隙位置和 GPT-4),并且与第三种策略(基于间隙大小)表现相当。我们的分析表明,GPT-4 在生成过程中仍然难以满足显式约束条件,而 MIP 生成的 C-Tests 与所感知的困难程度最相关。我们在开源许可下发布了我们的代码、模型和收集的数据,其中包括 32 个英语 C-Tests,每个测试包含 20 个间隙(总共 3200 个单独的间隙响应)。
Apr, 2024
本文介绍了一个原型工具,旨在促进语言模型与教育工作者的合作,以简化数学多项选择题生成过程。我们进行了一项试点研究,涉及数学教育工作者,以调查该工具如何帮助他们简化高质量的数学多项选择题的制作过程。研究发现,虽然语言模型能够生成良好形式的问题提示,但其生成的干扰项无法涵盖常见的学生错误和误解。尽管如此,人工智能与人类的合作有潜力提高多项选择题生成的效率和有效性。
May, 2024
本研究提出了一种使用未标记数据的自适应方法 (MEMO-CL),利用最新的无监督技术来最小化在测试时由于分布变化导致的测试性能下降问题,通过对单个测试样本中的一批增强样本进行处理,实现了无监督、领域不可知、容易实施且无需额外数据的自适应技术,相对当前测试时适应基线所取得的进展为 3%。
Dec, 2022
Item Response Theory (IRT) models leverage coresets for scalable learning of latent abilities and difficulty characteristics in the context of large-scale assessments and data analysis problems.
Mar, 2024