ACLMay, 2023

当今自然语言理解中 “超人类表现” 的含义是什么?

TL;DR在过去五年中,自然语言处理领域关注于发展更大的预训练语言模型和引入基准测试, 如 SuperGLUE 和 SQuAD,以测量其在语言理解、推理和阅读理解方面的能力。这篇论文对这些预训练语言模型声称的具有超人类能力以及当前基准测试的真正评估对象提出了批判性的看法,并指出了这些基准测试存在的严重局限性,提出了更公平、透明的基准测试建议。