EMNLPMar, 2022

低资源语言的语料库品质真的很重要吗?

TL;DR通过对巴斯克语的表征学习进行案例研究,我们探索了精细爬取作为替代 CommonCrawl 的方法。尽管我们的新语料库质量更高,而且在巴斯克语广泛的语料库中取得了类似的结果,但我们的工作表明,低资源语言的 NLU 性能不是主要受到数据质量的限制,而是与语料库的大小和领域覆盖等其他因素有更重要的关系。