ACLMay, 2021
更大的预训练语言模型是否总体表现更好?在实例级别上进行比较
Are Larger Pretrained Language Models Uniformly Better? Comparing Performance at the Instance Level
Ruiqi Zhong, Dhruba Ghosh, Dan Klein, Jacob Steinhardt
TL;DR比较不同规模的语言模型在不同实例上的表现,发现 BERT-Large 在一定比例上比 BERT-Mini 表现差。建议研究人员结合模型预测来分析模型表现。