EMNLPOct, 2022

SLING:中文大型语言模型评估

TL;DR通过引入基准 SLING,作者测试了 18 个预训练的母语和多语言模型,研究它们对汉语句子的理解效果以及现象级别、社会性别和单 / 复数等方面的影响。作者发现预训练语言模型在 SLING 上的平均准确率远低于人类表现,并存在很强的个别现象偏见。