GlotLID: 低资源语言的语种识别

EMNLPOct, 2023

GlotLID: Language Identification for Low-Resource Languages

Amir Hossein Kargaran, Ayyoob Imani, François Yvon, Hinrich Schütze

TL;DRGlotLID-M 是一种具备广泛覆盖、可靠高效、用于辨识低资源语言的 LID 模型，通过分析语料元数据问题、高资源语言泄漏、近似语言辨别困难、处理大语种与方言等方面的挑战，希望将其整合到数据集创建过程中，提高低资源语言与文化的 NLP 技术的质量和可用性。

Abstract

Several recent papers have published good solutions for language identification (LID) for about 300 high-resource and medium-resource languages. However, there is no LID available that (i) covers a wide range of low-resource languages, (ii) is rigorously evaluated and reliable and (iii) efficient and easy to use. Here, we publish →

language identification low-resource languages glotlid-m wide coverage nlp technology

发现论文，激发创造

语言识别的开放数据集和模型

该研究提出了一种基于单语数据训练的语言识别模型，其在 201 种语言上的宏平均 F1 得分为 0.93，而误报率为 0.033，将先前工作的表现远远超过。我们对数据集进行了精心筛选，通过手动审核每个来源和每种语言的样本来确保其可靠性。模型和数据集都向研究界公开，并详细分析了模型的性能。

May, 2023

AfroLID: 非洲语言的神经语言识别工具

介绍了 AfroLID，一种对 517 种非洲语言进行语言识别的神经工具包，它利用了跨足 14 个语言家族和 5 个拼写系统的多域 Web 数据集，取得了 95.89 的 F1 分数，并在 Twitter 领域得到了验证。

Oct, 2022

MaskLID：通过迭代遮盖进行的代码切换语言识别

MaskLID 是一种简单而有效的代码切换语言识别方法，旨在补充当前高性能的句子级别识别器。它通过掩盖与 L1 语言相关的文本特征，使得识别器可以在下一轮中将文本分类为 L2，从而解决仅返回 L1 标签的问题。该方法利用识别器本身来识别需要掩盖的特征，不依赖于任何外部资源。本研究在两种开源识别器 (GlotLID 和 OpenLID) 上探索了 MaskLID 的应用，它们都基于 FastText 架构。

Jun, 2024

野外语言识别：通往千语言网络文本语料库的挑战

本研究重点讨论了大型文本语料库在自然语言处理任务中的重要性以及在多语言语境下收集这些数据集所需的核心技术 —— 自动语言识别，该文介绍了使用基于词表的精度可调过滤器和基于 Transformer 的半监督语言识别模型来提高数据集质量的方法，为接下来创建 1,000 种语言的网络文本语料库铺平了道路。

Oct, 2020

文本语言识别

利用微博和深度学习技术，研发了一种可靠的语言识别引擎，在 Discriminating between Similar Languages (DSL) Shared Task 2015 数据集上达到了 95.12% 的准确率。

Jan, 2017

BERT-LID: 利用 BERT 提升口语语言识别

我们提出了一种基于 BERT 的语言识别系统，通过提取从前端语音识别器导出的语音学后向图（PPG）作为输入，可以提高较短语音段的语言识别表现，该模型可以提高长语音段识别的基准准确率约 6.5％，提高短语音段识别的基准准确率约 19.9％，表明 BERT-LID 在语言识别方面是有效的。

Mar, 2022

利用频谱增强技术进行混合语言口语识别

本研究针对印度语境下多种语言混杂的情况，对在语音处理中较为基础的语种识别系统 LID 进行优化，提出基于语种掩蔽和光谱增强的方法，在微软研究团队提出的挑战任务中相对基线系统进行了 3-5% 的 LID 准确度改进。

Oct, 2020

Glot500: 将多语言语料库和语言模型扩展到 500 种语言

该研究开发了覆盖 511 种语言的大型多语言模型 Glot500-m，通过将其预训练与应用于 5 种不同语言任务中表现出较好的表现，探讨了多语言 LLM 的质量因素，旨在实现 NLP 技术在尽可能多的语言和文化中的应用。

May, 2023

模块化多语言语言模型的隐晦限制

我们揭示了模块化多语种语言模型 (MLMs) 在未知语言的多语种推理场景中的局限性。现有模块化 MLMs 的评估排除了语言识别 (LID) 模块的参与，这使模块化 MLMs 在实际多语种场景下的性能变得模糊。在这项工作中，我们展示了添加 LID 对模块化 MLMs 多语种评估的影响，并提供了有关如何弥合由 LID 和模块化 MLMs 的串联方法引起的性能差距的讨论。

Nov, 2023

使用具有知识蒸馏的双模型增强语言识别

本研究基于双模式框架，使用知识蒸馏在 x 向量自我关注（XSA-LID）模型上，以增强其对长短发音的语言识别（LID）性能。通过分别优化完整和短模式，其输入为完整长度的语音和通过特定布尔蒙版提取的短剪辑，并在短发音中应用知识蒸馏以进一步提高性能。在 MLS14 数据集上的实验表明，在 3 秒随机位置的布尔蒙版下，相较于 XSA-LID 模型，本方法在 3 秒，10 秒和 30 秒的发音中均达到了相对成本的 19.23％，21.52％和 8.37％的提高。

Mar, 2022