Nov, 2019

从互联网自动创建低资源语言文本语料库:以瑞士德语为例

TL;DRSwissCrawl 是目前最大的瑞士德语文本语料库之一,是使用自定义网络抓取工具生成的。它展示了如何利用公开的网络页面构建全面的文本语料库,在自然语言处理方面非常重要。在实验评估中,我们发现使用新语料库可以显著提高语言建模任务的性能。为了捕获新内容,我们的方法会持续不断地运行以增加语料库的文本。