利用项目反应理论构建评估量表
在本文中,我们提出了一个基于修改过的 IRT 模型的框架,用于评估算法组合在数据集存储库中的性能,同时揭示算法性能的重要方面,例如一致性和异常性。我们测试了这个框架在广泛应用的算法组合上,展示了这种方法作为一种具有洞察力的算法评估工具的广泛适用性,并且 IRT 参数的可解释性提供了对算法组合的更深入理解。
Jul, 2023
Item Response Theory (IRT) models leverage coresets for scalable learning of latent abilities and difficulty characteristics in the context of large-scale assessments and data analysis problems.
Mar, 2024
本文提出了在深度神经网络产生的人工群众中使用生成的反应模式 (RP) 来学习 IRT 模型,并证明了这种方法在两个 NLP 任务中通过定量和定性分析学习 IRT 模型的有效性。通过训练集过滤中使用隐含的难度项参数的用例,以及人类预期和机器 RP 所估计难度不匹配的情况。
Aug, 2019
本文通过 Item Response Theory 方法对 18 个预训练 Transformer 模型在 29 个 NLP 数据集上进行实验,结果显示 Quoref,HellaSwag 和 MC-TACO 数据集更适合用于区分最先进的 NLP 模型,而 SNLI,MNLI 和 CommitmentBank 数据集已经达到饱和水平。另外观察到 QA 数据集(如 QAMR 或 SQuAD2.0)的任务形式在区分强弱模型方面非常有效。
Jun, 2021
本论文提出了 Deep-IRT,它是一种基于深度神经网络框架的动态键值记忆网络 (DKVMN) 和项目反应理论 (IRT) 模型的综合,可用于使基于深度学习的知识追踪能够得到解释性。实验证明,Deep-IRT 模型保留了 DKVMN 模型的性能,同时提供了学生和项目的直接心理学解释。
Apr, 2019
本论文介绍了一种用于比较不同 NLP 系统语义理解能力的统一性评估框架 ——Recognizing Textual Entailment (RTE),并提供了评估 NLP 系统推理能力的不同方法的概述,重点介绍了 RTE 数据集的特点及其最新研究进展,提出了利用注重特定语言现象的新引入的 RTE 数据集来评估 NLP 系统的建议。
Oct, 2020
本文研究比较了基于 IRT 的多个熟练度估计方法和基于 RNN 的 Deep Knowledge Tracing 在学生行为预测方面的表现,在多个数据集中发现 IRT 性能优于 DKT,并通过贝叶斯概率模型的应用提供更好的可解释性和保证性。
Apr, 2016
通过在 Item Response Theory 中引入 amortised experimental design 和 Deep Reinforcement Learning 方法,能够高效地提取学生能力和测试题目特征,以及在实时中考虑实验历史和结果的情况下为学生推荐下一个测试题目。
Jul, 2023
利用 IRT 模型和三个数据集,包括一个新颖的政治倡导数据集,对语言中的争论说服力进行了分析,通过多种风格和内容表示法表现出分离这些组件的优势,包括评估模型生成的演讲者嵌入与现实世界关于可说服性的观察的相似性。
Apr, 2022