COLINGOct, 2020
野外语言识别:通往千语言网络文本语料库的挑战
Language ID in the Wild: Unexpected Challenges on the Path to a Thousand-Language Web Text Corpus
Isaac Caswell, Theresa Breiner, Daan van Esch, Ankur Bapna
TL;DR本研究重点讨论了大型文本语料库在自然语言处理任务中的重要性以及在多语言语境下收集这些数据集所需的核心技术 —— 自动语言识别,该文介绍了使用基于词表的精度可调过滤器和基于 Transformer 的半监督语言识别模型来提高数据集质量的方法,为接下来创建 1,000 种语言的网络文本语料库铺平了道路。