Nov, 2019
从互联网自动创建低资源语言文本语料库:以瑞士德语为例
Automatic Creation of Text Corpora for Low-Resource Languages from the Internet: The Case of Swiss German
Lucy Linder, Michael Jungo, Jean Hennebert, Claudiu Musat, Andreas Fischer
TL;DRSwissCrawl 是目前最大的瑞士德语文本语料库之一,是使用自定义网络抓取工具生成的。它展示了如何利用公开的网络页面构建全面的文本语料库,在自然语言处理方面非常重要。在实验评估中,我们发现使用新语料库可以显著提高语言建模任务的性能。为了捕获新内容,我们的方法会持续不断地运行以增加语料库的文本。