ACLMar, 2021

一瞥即知质量:对多语言网络爬虫数据集的审计

TL;DR本文主要旨在探究如何评估及提高多语料库的质量,并针对少资源语言建议相关技术,同时也讨论低质量数据发布所可能带来的潜在风险。