EMNLPOct, 2023

GlotLID: 低资源语言的语种识别

TL;DRGlotLID-M 是一种具备广泛覆盖、可靠高效、用于辨识低资源语言的 LID 模型,通过分析语料元数据问题、高资源语言泄漏、近似语言辨别困难、处理大语种与方言等方面的挑战,希望将其整合到数据集创建过程中,提高低资源语言与文化的 NLP 技术的质量和可用性。