EMNLPMay, 2016

利用项目反应理论构建评估量表

TL;DR本文提出一种基于心理度量学中的项目反应理论(IRT)的替代手段,用于生成金标准测试集和 NLP 系统的评估,通过实验证明 IRT 方法能提供更为全面的系统性能评估,并能更好地说明系统性能。