ACLJun, 2021

利用项目反应理论比较测试数据集

TL;DR本文通过 Item Response Theory 方法对 18 个预训练 Transformer 模型在 29 个 NLP 数据集上进行实验,结果显示 Quoref,HellaSwag 和 MC-TACO 数据集更适合用于区分最先进的 NLP 模型,而 SNLI,MNLI 和 CommitmentBank 数据集已经达到饱和水平。另外观察到 QA 数据集(如 QAMR 或 SQuAD2.0)的任务形式在区分强弱模型方面非常有效。