Nov, 2024

维基百科的质量如何?

TL;DR本研究探讨了维基百科在低资源语言环境中的数据质量问题,发现存在大量一行和重复文章等质量问题。通过实施质量过滤技术,我们证明数据质量修剪可以在不损害性能的情况下,提高资源效率,特别适用于低资源语言。我们提倡从语言和任务特定的角度重新定义数据质量,以指导多语言预训练中的维基百科使用。