COLINGMar, 2024

语言模型是否关心文本质量?评估跨越 11 种语言的网络爬取语料库

TL;DR经过评估,我们发现大规模网络爬取的语料库对训练语言模型的质量并不起重要作用。