引入灵活单调多项选择项目反应理论模型与比特尺度
本文提出一种基于心理度量学中的项目反应理论(IRT)的替代手段,用于生成金标准测试集和NLP系统的评估,通过实验证明IRT方法能提供更为全面的系统性能评估,并能更好地说明系统性能。
May, 2016
在本文中,我们提出了一个基于修改过的IRT模型的框架,用于评估算法组合在数据集存储库中的性能,同时揭示算法性能的重要方面,例如一致性和异常性。我们测试了这个框架在广泛应用的算法组合上,展示了这种方法作为一种具有洞察力的算法评估工具的广泛适用性,并且IRT参数的可解释性提供了对算法组合的更深入理解。
Jul, 2023
提出了Variational Temporal IRT (VTIRT)算法,用于快速准确地推断学习者能力的动态变化,相较于其他学习者能力模型,在预测未来的学习者表现方面持续取得改进。
Nov, 2023
Item Response Theory (IRT) models leverage coresets for scalable learning of latent abilities and difficulty characteristics in the context of large-scale assessments and data analysis problems.
Mar, 2024
我们提出了一个使用预训练语言模型作为代理模型进行项目反应理论评估的框架,通过使用排名规则控制缺失项和干扰项的难度水平,有效地控制和评估多选填空测试的难度水平。
Mar, 2024
利用六种不同的LLMs(GPT-3.5、GPT-4、Llama 2、Llama 3、Gemini-Pro和Cohere Command R Plus)和它们的组合,通过采样方法产生具有类似于人类答案的心理测量特性的回答,以探索教育测量的有效性,结果显示,有些LLMs在大学代数方面的能力与大学生相当或更高,而LLM-受试者校准的项目参数与其人类校准的对应物具有很高的相关性,并且与人类子集的参数非常接近,多种增强策略被评估,重新采样方法被证明效果最好,将Spearman相关性从0.89(仅使用人类数据)提高到0.93(增强后的人类数据)。
Jul, 2024
本研究解决了传统混淆矩阵评估指标如精确度和F1评分的局限性,这些指标未能考虑数据复杂性和结果质量。通过引入项目反应理论(IRT),本文提出了一种补充传统指标的新方法,以便更好地评估模型在实例级别的表现,并发现IRT分数在66%的传统指标分析中具有显著不同的贡献,表明其在模型选择中的潜在影响。
Sep, 2024
本研究解决了传统混淆矩阵评价指标(如精度和F1分数)只提供定量分析而忽视数据复杂性和结果质量的局限性。创新性地引入了心理测量指标,如项目反应理论(IRT),为混淆矩阵增添了评估隐性特征的新层面,显著提高了举例分析的能力。研究发现,IRT评分与66%经典指标的贡献存在97%的信心,表明这一方法的潜在影响力。
Sep, 2024
本研究解决了传统项目反应理论(IRT)模型在计算机自适应测试(CAT)中校准效率低的问题。提出了一种多阶段拟合程序,利用自动化机器学习工具加速建模过程,显著提高了模型的校准性和预测性能。研究结果表明,该方法在Duolingo英语测试中相比现有方法表现出更高的准确度和更好的分数预测。
Sep, 2024
本研究解决了在智能辅导系统中,如何有效评估语言学习者能力的问题。我们提出了一种新颖的方法,通过将练习中的学习者数据转化为可用于项目反应理论(IRT)建模的形式,从而实现对学习者能力的准确评估。结果表明,基于练习的能力估计和传统测试的结果同样准确,具有重要的应用潜力。
Sep, 2024