BriefGPT.xyz
Nov, 2024
维基百科的质量如何?
How Good is Your Wikipedia?
HTML
PDF
Kushal Tatariya, Artur Kulmizev, Wessel Poelman, Esther Ploeger, Marcel Bollmann...
TL;DR
本研究探讨了维基百科在低资源语言环境中的数据质量问题,发现存在大量一行和重复文章等质量问题。通过实施质量过滤技术,我们证明数据质量修剪可以在不损害性能的情况下,提高资源效率,特别适用于低资源语言。我们提倡从语言和任务特定的角度重新定义数据质量,以指导多语言预训练中的维基百科使用。
Abstract
wikipedia
's perceived high quality and broad language coverage have established it as a fundamental resource in
multilingual NLP
. In the context of
→