py-irt: 一款可扩展的 Python 项目反应理论库

Mar, 2022

py-irt: 一款可扩展的 Python 项目反应理论库

$\texttt{py-irt}$: A Scalable Item Response Theory Library for Python

John P. Lalor, Pedro Rodriguez

TL;DRpy-irt是一个Python库，用于拟合贝叶斯项目反应理论（IRT）模型，运用在IRT任务和理想点模型中，建立在Pyro和PyTorch框架之上，并使用GPU加速训练来扩展到大型数据集。

Abstract

$\texttt{py-irt}$ is a python library for fitting Bayesian Item Response Theory (IRT) models. $\texttt{py-irt}$ estimates latent traits of subjects and items, making it appropriate for use in IRT tasks as well as ideal-point models. $\texttt{py-irt}$ is built on top of the

发现论文，激发创造

利用项目反应理论构建评估量表

本文提出一种基于心理度量学中的项目反应理论（IRT）的替代手段，用于生成金标准测试集和NLP系统的评估，通过实验证明IRT方法能提供更为全面的系统性能评估，并能更好地说明系统性能。

May, 2016

无需人类响应模式的学习潜在参数：人工群体的项目反应理论

本文提出了在深度神经网络产生的人工群众中使用生成的反应模式(RP)来学习IRT模型，并证明了这种方法在两个NLP任务中通过定量和定性分析学习IRT模型的有效性。通过训练集过滤中使用隐含的难度项参数的用例，以及人类预期和机器RP所估计难度不匹配的情况。

Aug, 2019

基于项目反应理论的算法综合评估

在本文中，我们提出了一个基于修改过的IRT模型的框架，用于评估算法组合在数据集存储库中的性能，同时揭示算法性能的重要方面，例如一致性和异常性。我们测试了这个框架在广泛应用的算法组合上，展示了这种方法作为一种具有洞察力的算法评估工具的广泛适用性，并且IRT参数的可解释性提供了对算法组合的更深入理解。

Jul, 2023

可扩展的项目反应理论模型学习

Item Response Theory (IRT) models leverage coresets for scalable learning of latent abilities and difficulty characteristics in the context of large-scale assessments and data analysis problems.

Mar, 2024

基于项目反应理论的R模块用于算法组合分析

本研究解决了AI研究中算法组合评估时存在的局限性，即仅评估有限算法导致对其优缺点的理解不足。该论文提出的AIRT-Module工具，利用项目反应理论，提供了算法性能的全面分析，能够可视化算法在不同测试实例下的表现。研究结果将有助于深化对算法能力的理解，进而提升AI方法的全面评估。

Aug, 2024

站在巨人的肩膀上

本研究解决了传统混淆矩阵评估指标如精确度和F1评分的局限性，这些指标未能考虑数据复杂性和结果质量。通过引入项目反应理论（IRT），本文提出了一种补充传统指标的新方法，以便更好地评估模型在实例级别的表现，并发现IRT分数在66%的传统指标分析中具有显著不同的贡献，表明其在模型选择中的潜在影响。

Sep, 2024

基于人类能力框架的视觉数据集和模型评估

本研究解决了计算机视觉中模型和数据集评估的不足，尤其是单一准确率指标的问题。通过引入项目反应理论（IRT），该论文提供了一种新的评估方法，允许对多个模型和数据集项进行更丰富的分析。最重要的发现是，IRT能够有效提高模型校准和数据子集选择的能力，从而增强模型和数据集的比较分析。

Sep, 2024

站在巨人的肩膀上

本研究解决了传统混淆矩阵评价指标（如精度和F1分数）只提供定量分析而忽视数据复杂性和结果质量的局限性。创新性地引入了心理测量指标，如项目反应理论（IRT），为混淆矩阵增添了评估隐性特征的新层面，显著提高了举例分析的能力。研究发现，IRT评分与66%经典指标的贡献存在97%的信心，表明这一方法的潜在影响力。

Sep, 2024

AutoIRT：利用自动化机器学习校准项目反应理论模型

本研究解决了传统项目反应理论（IRT）模型在计算机自适应测试（CAT）中校准效率低的问题。提出了一种多阶段拟合程序，利用自动化机器学习工具加速建模过程，显著提高了模型的校准性和预测性能。研究结果表明，该方法在Duolingo英语测试中相比现有方法表现出更高的准确度和更好的分数预测。

Sep, 2024

引入灵活单调多项选择项目反应理论模型与比特尺度

该研究解决了现有多项选择项目反应理论（IRT）模型在数据拟合上的不足，提出了单调多项选择（MMC）模型并结合自编码器进行拟合。研究结果表明，MMC模型在拟合优度上优于传统的名义反应IRT模型，并展示了如何将任一拟合IRT模型的潜在特质尺度转化为比率尺度，以便于分数解读和不同IRT模型的比较。

Oct, 2024