利用项目反应理论构建评估量表

EMNLPMay, 2016

Building an Evaluation Scale using Item Response Theory

John P. Lalor, Hao Wu, Hong Yu

TL;DR本文提出一种基于心理度量学中的项目反应理论（IRT）的替代手段，用于生成金标准测试集和 NLP 系统的评估，通过实验证明 IRT 方法能提供更为全面的系统性能评估，并能更好地说明系统性能。

Abstract

Evaluation of nlp methods requires testing against a previously vetted gold-standard test set and reporting standard metrics (accuracy/precision/recall/F1). The current assumption is that all items in a given tes

nlp item response theory gold-standard test set recognizing textual entailment evaluation metrics

发现论文，激发创造

基于项目反应理论的算法综合评估

在本文中，我们提出了一个基于修改过的 IRT 模型的框架，用于评估算法组合在数据集存储库中的性能，同时揭示算法性能的重要方面，例如一致性和异常性。我们测试了这个框架在广泛应用的算法组合上，展示了这种方法作为一种具有洞察力的算法评估工具的广泛适用性，并且 IRT 参数的可解释性提供了对算法组合的更深入理解。

Jul, 2023

可扩展的项目反应理论模型学习

Item Response Theory (IRT) models leverage coresets for scalable learning of latent abilities and difficulty characteristics in the context of large-scale assessments and data analysis problems.

Mar, 2024

无需人类响应模式的学习潜在参数：人工群体的项目反应理论

本文提出了在深度神经网络产生的人工群众中使用生成的反应模式 (RP) 来学习 IRT 模型，并证明了这种方法在两个 NLP 任务中通过定量和定性分析学习 IRT 模型的有效性。通过训练集过滤中使用隐含的难度项参数的用例，以及人类预期和机器 RP 所估计难度不匹配的情况。

Aug, 2019

利用项目反应理论比较测试数据集

本文通过 Item Response Theory 方法对 18 个预训练 Transformer 模型在 29 个 NLP 数据集上进行实验，结果显示 Quoref，HellaSwag 和 MC-TACO 数据集更适合用于区分最先进的 NLP 模型，而 SNLI，MNLI 和 CommitmentBank 数据集已经达到饱和水平。另外观察到 QA 数据集（如 QAMR 或 SQuAD2.0）的任务形式在区分强弱模型方面非常有效。

Jun, 2021

基于自适应语言的心理健康评估和项目反应理论

通过有限的语言回答问题进行迭代估计个体心理得分的自适应语言评估方法（ALIRT）可显著降低问题数量，同时不影响准确性和计算成本。

Nov, 2023

Deep-IRT：利用项目反应理论使基于深度学习的知识追踪解释性更强

本论文提出了 Deep-IRT，它是一种基于深度神经网络框架的动态键值记忆网络 (DKVMN) 和项目反应理论 (IRT) 模型的综合，可用于使基于深度学习的知识追踪能够得到解释性。实验证明，Deep-IRT 模型保留了 DKVMN 模型的性能，同时提供了学生和项目的直接心理学解释。

Apr, 2019

一项文本蕴含识别的自然语言处理评估调查

本论文介绍了一种用于比较不同 NLP 系统语义理解能力的统一性评估框架 ——Recognizing Textual Entailment (RTE)，并提供了评估 NLP 系统推理能力的不同方法的概述，重点介绍了 RTE 数据集的特点及其最新研究进展，提出了利用注重特定语言现象的新引入的 RTE 数据集来评估 NLP 系统的建议。

Oct, 2020

回归基础：贝叶斯 IRT 扩展在熟练度估计上的表现优于神经网络

本文研究比较了基于 IRT 的多个熟练度估计方法和基于 RNN 的 Deep Knowledge Tracing 在学生行为预测方面的表现，在多个数据集中发现 IRT 性能优于 DKT，并通过贝叶斯概率模型的应用提供更好的可解释性和保证性。

Apr, 2016

项目反应理论的摊还设计优化

通过在 Item Response Theory 中引入 amortised experimental design 和 Deep Reinforcement Learning 方法，能够高效地提取学生能力和测试题目特征，以及在实时中考虑实验历史和结果的情况下为学生推荐下一个测试题目。

Jul, 2023

论说服的一维响应理论框架

利用 IRT 模型和三个数据集，包括一个新颖的政治倡导数据集，对语言中的争论说服力进行了分析，通过多种风格和内容表示法表现出分离这些组件的优势，包括评估模型生成的演讲者嵌入与现实世界关于可说服性的观察的相似性。

Apr, 2022