GlotLID: 低资源语言的语种识别
该研究提出了一种基于单语数据训练的语言识别模型,其在 201 种语言上的宏平均 F1 得分为 0.93,而误报率为 0.033,将先前工作的表现远远超过。我们对数据集进行了精心筛选,通过手动审核每个来源和每种语言的样本来确保其可靠性。模型和数据集都向研究界公开,并详细分析了模型的性能。
May, 2023
介绍了 AfroLID,一种对 517 种非洲语言进行语言识别的神经工具包,它利用了跨足 14 个语言家族和 5 个拼写系统的多域 Web 数据集,取得了 95.89 的 F1 分数,并在 Twitter 领域得到了验证。
Oct, 2022
MaskLID 是一种简单而有效的代码切换语言识别方法,旨在补充当前高性能的句子级别识别器。它通过掩盖与 L1 语言相关的文本特征,使得识别器可以在下一轮中将文本分类为 L2,从而解决仅返回 L1 标签的问题。该方法利用识别器本身来识别需要掩盖的特征,不依赖于任何外部资源。本研究在两种开源识别器 (GlotLID 和 OpenLID) 上探索了 MaskLID 的应用,它们都基于 FastText 架构。
Jun, 2024
本研究重点讨论了大型文本语料库在自然语言处理任务中的重要性以及在多语言语境下收集这些数据集所需的核心技术 —— 自动语言识别,该文介绍了使用基于词表的精度可调过滤器和基于 Transformer 的半监督语言识别模型来提高数据集质量的方法,为接下来创建 1,000 种语言的网络文本语料库铺平了道路。
Oct, 2020
利用微博和深度学习技术,研发了一种可靠的语言识别引擎,在 Discriminating between Similar Languages (DSL) Shared Task 2015 数据集上达到了 95.12% 的准确率。
Jan, 2017
我们提出了一种基于 BERT 的语言识别系统,通过提取从前端语音识别器导出的语音学后向图(PPG)作为输入,可以提高较短语音段的语言识别表现,该模型可以提高长语音段识别的基准准确率约 6.5%,提高短语音段识别的基准准确率约 19.9%,表明 BERT-LID 在语言识别方面是有效的。
Mar, 2022
本研究针对印度语境下多种语言混杂的情况,对在语音处理中较为基础的语种识别系统 LID 进行优化,提出基于语种掩蔽和光谱增强的方法,在微软研究团队提出的挑战任务中相对基线系统进行了 3-5% 的 LID 准确度改进。
Oct, 2020
该研究开发了覆盖 511 种语言的大型多语言模型 Glot500-m,通过将其预训练与应用于 5 种不同语言任务中表现出较好的表现,探讨了多语言 LLM 的质量因素,旨在实现 NLP 技术在尽可能多的语言和文化中的应用。
May, 2023
我们揭示了模块化多语种语言模型 (MLMs) 在未知语言的多语种推理场景中的局限性。现有模块化 MLMs 的评估排除了语言识别 (LID) 模块的参与,这使模块化 MLMs 在实际多语种场景下的性能变得模糊。在这项工作中,我们展示了添加 LID 对模块化 MLMs 多语种评估的影响,并提供了有关如何弥合由 LID 和模块化 MLMs 的串联方法引起的性能差距的讨论。
Nov, 2023
本研究基于双模式框架,使用知识蒸馏在 x 向量自我关注(XSA-LID)模型上,以增强其对长短发音的语言识别(LID)性能。通过分别优化完整和短模式,其输入为完整长度的语音和通过特定布尔蒙版提取的短剪辑,并在短发音中应用知识蒸馏以进一步提高性能。在 MLS14 数据集上的实验表明,在 3 秒随机位置的布尔蒙版下,相较于 XSA-LID 模型,本方法在 3 秒,10 秒和 30 秒的发音中均达到了相对成本的 19.23%,21.52%和 8.37%的提高。
Mar, 2022